Présentation de l'outil glossaire
 Les étapes de la construction 1  2  3
 Légende des couleurs
 Gestion des mots grammaticaux

 LGeRM
 Présentation du lemmatiseur
 Prise en charge TEI
 Crédits

 Projets en cours
 Consultation d'un glossaire
 Lecture du texte en continu
 Accès aux formes
 Accès aux lemmes
 Projet finalisé
 Administration du projet
 S'identifier
 Accès au DMF
C.N.R.S.
 
Dictionnaire du Moyen Français (1330-1500)

Prise en charge de la TEI P5 
 Généralités 

Le lemmatiseur est capable de tenir compte des balises rencontrées dans le texte. Les règles de traitement s'appuient sur les recommandations de la TEI.

 Balises prises en charges 

<abbr> ajout du contenu de l'attribut expan à l'unité lexicale courante (P4).
<choice>
<corr>, <sic>, <rend>
seul le contenu de corr est traité
<choice>
<abbr>, <expan>
gestion des abbréviations. Traitement de <expan>. Perte de <abbr> => sans doute à revoir pour l'affichage, il serait utile de garder une trace de abbr. Jan 2011.
<del> le contenu n'est pas traité
<foreign> le mot n'est pas lemmatisé
<front> le contenu n'est pas traité
<fw>le contenu n'est pas traité (avril 2012 bizarre?)
<gap> un caractère # est ajouté dans le mot
<head> le contenu n'est pas traité
<l> récupération de l'attribut n comme numéro de ligne/vers
<lb> récupération de l'attribut n comme numéro de ligne/vers
<msDesc>le contenu n'est pas traité
<name> considère le(s) mot(s) comme un nom propre
<note> le contenu n'est pas traité
  • attribut type : mis à 1 ou en-ligne, la note est affichée dans le texte, sinon appel de note
  • <pb> c'est la base de découpage du texte en pages
  • attribut n comme numéro de page/folio
  • attribut facs pour le fac simile (dans une version antérieure du lemmatiseur c'est l'attribut id qui est utilisé)
  • attribut ed pour gérer plusieurs paginations
  • <sic>le contenu d'un <sic> isolé est traité
    un sic rencontré dans <choice> n'est pas traité
    <w> l'attribut lemma donne le lemme, l'attribut type donne la catégorie grammaticale.

     Segmentation des mots 

    L'espace en dehors des balises est considéré comme un caractère séparateur. L'absence d'espace entre deux balises provoque le regroupement des caractères.
    <b1>rupt</b1><b2>ture</b2> 1 seul mot rupture
    <b1>rupt</b1> <b2>ture</b2> 2 mots rupt et ure
     
    Comment sont gérés la rupture de ligne <lb/> et/ou le retour à la ligne ?
    rupt<lb/>
    ure
    2 mots rupt et ure
    rupt
    ure
    2 mots rupt et ure
    rupt<lb/>ure 1 seul mot rupture
    rupt-<lb/>
    ure
    1 seul mot rupture
    rupt-
    ure
    1 seul mot rupture
    elle-<lb/>
    même
    Avec une telle règle, un mot composé est regroupé en elle-même.
    S'il y a une espace entre le tiret et la fin de ligne, les deux parties du mot ne sont pas regroupées.
    rupt-{espace}
    <lb/>ure
    2 mots rupt- et ure