Présentation de l'outil glossaire
 Les étapes de la construction 1  2  3
 Légende des couleurs
 Gestion des mots grammaticaux

 LGeRM
 Présentation du lemmatiseur
 Prise en charge TEI
 Crédits

 Projets en cours
 Consultation d'un glossaire
 Lecture du texte en continu
 Accès aux formes
 Accès aux lemmes
 Projet finalisé
 Administration du projet
 S'identifier
 Accès au DMF
C.N.R.S.
 
Dictionnaire du Moyen Français (1330-1500)

Les étapes de la construction 2/3 
 1. Création du projet 
 2. Lemmatisation du fichier 

La lemmatisation produit cinq fichiers résultats :

  • la liste de mots dans leur ordre d'apparition dans le texte. Les mots produits se voient attribués un ou plusieurs lemmes. Chaque mot possède un statut rendu par sa couleur
     mot non résolu  : le lemmatiseur n'est pas capable de faire une proposition pour ce mot. Origines possibles : le mot est effectivement inconnu du DMF, nom propre non détecté, erreur de segmentation du texte (texte encodé TEI ou bogue dans algorithme de segmentation), erreur de transcription...
     forme inconnue  : le lemmatiseur ne connaissait pas la forme, il fait néanmoins une proposition de un ou plusieurs lemmes.
     forme connue  : le lemmatiseur possède la forme dans sa base de connaissances. Attention, la base est incomplète, il peut ne pas connaître tous les lemmes possibles d'une forme.
     lemme imposé  : le lemmatiseur prend l'information de lemme encodée dans le texte.
  • un texte brut sans balises. La segmentation des mots tient compte des balises TEI, le retour à la ligne correspond à la balise TEI <lb/>. Les mots coupés sont remontés sur la ligne précédente. Attention la ponctuation ne suit pas

  • la liste des mots non résolus

  • la liste des formes inconnues

  • la liste des noms propres

    Fonction administrateur

  •  Nettoyage du résultat 

    Le lemmatiseur produit du bruit. En effet sur des mots très courants il peux proposer des analyses multiples inadéquate. Par exemple pour l'article le il propose effectivement LE mais aussi LÉ, subst.. Si le mot LÉ était effectivement présent dans le texte, il faudrait le baliser en tant que tel avec la balise <w> pour ne pas être éliminé.

    Liste des hypothèses éliminées.

    La gestion des hypothèses émises par le lemmatiseur est complexe. L'algorithme ne parvient pas toujours à éliminer les lemmes identiques qui apparaissent pour une même forme. Un second programme est chargé de traiter le fichier résultat.

     Regroupement des formes 

    L'étape suivante consiste à regouper tous les formes identiques.

     Regroupement des lemmes 

    L'étape suivante consiste à regouper sous un même lemme toutes les formes du textes. A partir de ce fichier on pourra demander l'édition d'une entré du glossaire. Certains lemmes sont éliminés car ils ne présentent pas un grand intérêt pour un glossaire.

    Liste des lemmes éliminés.

     3. Finalisation