Le lemmatiseur s'appelle LGeRM qui est l'acronyme de Lemmes, Graphies et Règles Morphologiques.
Il a été développé spécialement pour gérer la variation graphique et plus particulièrement celle de la langue médiévale pour la période du moyen français. Il a été adapté pour gérer la langue du XVIIe.
Le principe de la lemmatisation consiste à rechercher les mots sans tenir compte du contexte, dans un ensemble d'environ 828 000 formes. Environ 48% des formes sont attestées dans les corpus de l'ATILF (chiffres janvier 2013). Détail des sources.
Lorsqu'une forme n'est pas dans la liste, le système est capable d'appliquer des règles morphologiques qui permettent de la ramener à une forme existante : pluriel/singulier ; forme conjuguée ; doublement, insertion ou omission d'une lettre, variante régionale... En tout le système connait près de 6 150 règles dont 4 500 pour la flexion verbale. Exemples de règles.
Bibliographie sélective
Gilles SOUVAY, Jean-Marie PIERREL (2009) LGeRM : lemmatisation de mots en moyen français Traitement Automatique des Langues, volume 50, numéro 2. http://www.atala.org/LGeRM
Gilles SOUVAY (2004)
LGeRM : un outil d'aide à la lemmatisation du moyen français
CILPR 2004 Congrès International de Linguistique et de Philologie Romane, Aberystwyth, Pays de Galles, 2-5 août 2004. Vol. I. Tübingen: Niemeyer, 457-466
Gilles SOUVAY (1986) Analyse de textes de moyen français Rapport de DEA, Centre de recherche en Informatique de Nancy, Université de Nancy I.
Plus d'informations
Pour obtenir plus d'informations sur LGeRM, vous pouvez contacter gilles.souvay@atilf.fr.