Accueil
 Recherche dans le dictionnaire
 Recherche dans les lexiques
 Recherche dans les textes
 Aide à l'édition de texte
 Lien direct sur un article du DMF
 Étude d'une forme
 Recherche de formes
 Outil glossaire

 LGeRM
 Présentation du lemmatiseur
 Lemmatisation de texte
 Légende des couleurs
 Prise en charge TEI
 Crédits
 Espace rédacteurs
 Portail ATILF
C.N.R.S.
 
Dictionnaire du Moyen Français (1330-1500)

Prise en charge de la TEI P5 
 Généralités 

Le lemmatiseur est capable de tenir compte des balises rencontrées dans le texte. Les règles de traitement s'appuient sur les recommandations de la TEI.

 Balises prises en charges 

<abbr> ajout du contenu de l'attribut expan à l'unité lexicale courante (P4).
<choice>
<corr>, <sic>, <rend>
seul le contenu de corr est traité
<choice>
<abbr>, <expan>
gestion des abbréviations. Traitement de <expan>. Perte de <abbr> => sans doute à revoir pour l'affichage, il serait utile de garder une trace de abbr. Jan 2011.
<del> le contenu n'est pas traité
<foreign> le mot n'est pas lemmatisé
<front> le contenu n'est pas traité
<fw>le contenu n'est pas traité (avril 2012 bizarre?)
<gap> un caractère # est ajouté dans le mot
<head> le contenu n'est pas traité
<l> récupération de l'attribut n comme numéro de ligne/vers
<lb> récupération de l'attribut n comme numéro de ligne/vers
<msDesc>le contenu n'est pas traité
<name> considère le(s) mot(s) comme un nom propre
<note> le contenu n'est pas traité
  • attribut type : mis à 1 ou en-ligne, la note est affichée dans le texte, sinon appel de note
  • <pb> c'est la base de découpage du texte en pages
  • attribut n comme numéro de page/folio
  • attribut facs pour le fac simile (dans une version antérieure du lemmatiseur c'est l'attribut id qui est utilisé)
  • attribut ed pour gérer plusieurs paginations
  • <sic>le contenu d'un <sic> isolé est traité
    un sic rencontré dans <choice> n'est pas traité
    <w> l'attribut lemma donne le lemme, l'attribut type donne la catégorie grammaticale.

     Segmentation des mots 

    L'espace en dehors des balises est considéré comme un caractère séparateur. L'absence d'espace entre deux balises provoque le regroupement des caractères.
    <b1>rupt</b1><b2>ture</b2> 1 seul mot rupture
    <b1>rupt</b1> <b2>ture</b2> 2 mots rupt et ure
     
    Comment sont gérés la rupture de ligne <lb/> et/ou le retour à la ligne ?
    rupt<lb/>
    ure
    2 mots rupt et ure
    rupt
    ure
    2 mots rupt et ure
    rupt<lb/>ure 1 seul mot rupture
    rupt-<lb/>
    ure
    1 seul mot rupture
    rupt-
    ure
    1 seul mot rupture
    elle-<lb/>
    même
    Avec une telle règle, un mot composé est regroupé en elle-même.
    S'il y a une espace entre le tiret et la fin de ligne, les deux parties du mot ne sont pas regroupées.
    rupt-{espace}
    <lb/>ure
    2 mots rupt- et ure