|
|
Principe de fonctionnement
|
|
Le lemmatiseur s'appelle LGeRM qui est l'acronyme de Lemmes, Graphies et Règles Morphologiques.
Il a été développé spécialement pour gérer la variation graphique et plus particulièrement celle de la langue médiévale pour la période du moyen français. Il a été adapté pour gérer la langue du XVIIe.
|
Le principe de la lemmatisation consiste à rechercher les mots sans tenir compte du contexte, dans un ensemble d'environ 828 000 formes. Environ 48% des formes sont attestées dans les corpus de l'ATILF (chiffres janvier 2013). Détail des sources.
|
Lorsqu'une forme n'est pas dans la liste, le système est capable d'appliquer des règles morphologiques qui permettent de la ramener à une forme existante : pluriel/singulier ; forme conjuguée ; doublement, insertion ou omission d'une lettre, variante régionale... En tout le système connait près de 6 150 règles dont 4 500 pour la flexion verbale. Exemples de règles.
|
|
Bibliographie sélective
|
|
Gilles SOUVAY, Jean-Marie PIERREL (2009) LGeRM : lemmatisation de mots en moyen français Traitement Automatique des Langues, volume 50, numéro 2. http://www.atala.org/LGeRM
|
|
Gilles SOUVAY (2004)
LGeRM : un outil d'aide à la lemmatisation du moyen français
CILPR 2004 Congrès International de Linguistique et de Philologie Romane, Aberystwyth, Pays de Galles, 2-5 août 2004. Vol. I. Tübingen: Niemeyer, 457-466
|
Gilles SOUVAY (1986) Analyse de textes de moyen français Rapport de DEA, Centre de recherche en Informatique de Nancy, Université de Nancy I.
|
|
Plus d'informations
|
|
|