Dictionary of first names and surnames for the automatic treatment of Polish by NooJ

Krzysztof Bogacki

Uniwersytet Warszawski
https://orcid.org/0000-0003-2755-4276

Agnieszka Dryjańska

Agnieszka DRYJAŃSKA - Uniwersytet Warszawski
https://orcid.org/0000-0003-1649-8408


Abstrakt

Cet article rend compte d’une recherche qui s’ inscrit dans une perspective plus large de mettre à la disposition des chercheurs des ressources linguistiques – dictionnaires et grammaires locales – dédiées au polonais. En premier lieu, nous présentons un dictionnaire électronique morphologique prénoms et des patronymes au format NooJ. Le corpus pris en compte pour l’élaboration de cette ressource, constitué à partir de plusieurs sources publiées sur Internet, contient plus de 466.000 vedettes (7.586 prénoms et 458.244 patronymes). Cherchant à réduire les dimensions du dictionnaire, nous avons proposé une description modulaire qui a nécessite la création de plus de 40 grammaires locales pour les patronymes et presque le double pour les prénoms. En conséquence, le dictionnaire reconnaît plus de 33 Mo de formes. La solution ci-dessus – dictionnairique – présentant l’inconvénient d’être peu économique en ce qui concerne le temps et la taille des fichiers finals, nous avons proposé une approche grammaticale. Dans la dernière partie de l’article, nous expliquons cette démarche aussi bien que les avantages et les inconvénients des deux méthodes et des ambigüité sémantiques et grammaticales générées par elles. Ensuite, nous justifions notre choix d'élaborer cette partie du lexique et, après un bref survol des propriété qui distinguent les noms propres des noms communs, nous présentons celles qui en polonais ont un impact direct sur la forme des mots retenus et constituent les principaux axes d’opposition entre eux. Outre les catégories grammaticales ayant un impact direct sur la forme (cas, genre et nombre), nous mentionnons, pour les prénoms, leur origine (slave, latine, grecque, biblique, etc.). Face aux hésitations quant à l’observation des régles d'usage restrictives, mais souvent non observées, nous avons décidé d'adopter une position libérale qui n'exclut pas certaines formes même si elles sont considérées comme erronées par les puristes.

Słowa kluczowe:

NooJ, traitement automatique des langues naturelles, patronymes

Awramiuk E., 1999, Systemowość polskiej homonimii międzyparadygmatycznej, Białystok, Wydawnictwo Uniwersytetu w Białymstoku.

Buttler D., Branicka T. & Tokarski J. red., 1984, Słownik polskich form homonimicznych, Wrocław, Ossolineum.

Constanza J., 2016, Nom propre et nomination : Etude d’un cas : la nomination des hommes politiques dans la presse écrite française, thèse de doctorat, Tours.

Daille B. & Morin E., 2000, « Reconnaissance automatique des noms propres de la langue écrite: les récentes réalisations », in : Traitement automatique des langues, Vol. 41, no 3, pp. 601–621.

Grevisse M., 1964, Le bon usage – Grammaire française, Louvain, Duculot, Hatier.

Kleiber G., 1981, Problèmes de référence : descriptions définies et noms propres, Metz, Centre d’Analyse Syntaxique.

Przepiórkowski A., Woliński M., 2003, « A Flexemic Tagset for Polish », in: Proceedings of the Workshop on Morphological Processing of Slavic Languages, EACL 2003, pp. 33–40.

Quemada B., 1967, Les dictionnaires du français moderne 1539–1863 – Etude sur leur histoire, leurs types et leurs méthodes, Paris, Didier.

Rymut K., 2003–2005, Słownik nazwisk używanych w Polsce na początku XXI wieku, Kraków–Warszawa, GenPol Tomasz Nitsch.

Rzetelska-Feleszko E., éd., 2005, Polskie nazwy własne, Kraków, Instytut Języka Polskiego Polskiej Akademii Nauk.

Silberztein M., 2015, La formalisation des langues : l’approche de NooJ, London, ISTE Editions.

Togeby K., 1982, Grammaire française – Vol. I : le Nom, Copenhague, Akademisk Forlag.

Vaxélaire J.-L., 2005, Les noms propres. Une analyse lexicologique et historique, Paris, Honoré Champion.

Woliński M., 2003, « System znaczników morfosyntaktycznych w korpusie IPI PAN», in : Polonica, XXII–XXIII, pp. 39–55.

Zeboudj K., 2011, Les dénominations monoréférentielles dans un guide touristique sur l’Algérie : approches linguistique et traductologique, thèse de doctorat, Université de la Sorbonne Nouvelle – Paris III.

http://nlp.actaforte.pl:8080/Nomina/Nazwiska

http://clarin-pl.eu/en/uslugi/

http://horajec.republika.pl/fakt28.html

http://nazwiska-polskie.pl/

http://stankiewicze.com/index.php?kat=44

http://szlachtarp.pl/lista-nazwisk.html

http://www.bip19.098.pl/index.php

http://www.futrega.org/etc/nazwiska.zip

http://www.herby.com.pl

http://www.jezykowedylematy.pl/2017/03/odmiana-nazwisk-dwuczlonowychsaryusz-wolski/

http://www.listaipn.pl/

http://www.forum-norwegia.pl/viewtopic.php?t=26370&start=108

https://pl.wikipedia.org/wiki/Kategoria:Alfabetyczna lista imion

https://sjp.pwn.pl/zasady/;629611

https://polandtimes.wordpress.com/2016/07/05/planowany-efekt-dominafinasowego-trzech-krajow

https://nk.pl/szkola/3541/forum/44

https://eurosport.interia.pl/justyna-kowalczyk/news-justyna-kowalczykujawnia-przezylam-zalamanie-nerwowe,nId,1436878

https://forum.trojmiasto.pl/WYDAJE-MI-SIE-RYWALIZACJA-PONIEWAZt166780,1,170.html


Opublikowane
2019-12-30


Bogacki, K. i Dryjańska, A. (2019) „Dictionary of first names and surnames for the automatic treatment of Polish by NooJ”, Białostockie Archiwum Językowe, (19), s. 47–65. doi: 10.15290/baj.2019.19.03.

Krzysztof Bogacki 
Uniwersytet Warszawski https://orcid.org/0000-0003-2755-4276
Agnieszka Dryjańska 
Agnieszka DRYJAŃSKA - Uniwersytet Warszawski https://orcid.org/0000-0003-1649-8408