Portail du laboratoire ATILF Dictionnaire du Moyen Français (1330-1500)
 Accueil
 Recherche dans le dictionnaire
 Recherche dans les textes
 Recherche dans la bibliographie
 Lemmatisation
  Présentation du lemmatiseur
  Étude d'une forme
  Lemmatisation de texte

  Légende des couleurs
  Prise en charge TEI
  Crédits
 Administration du site
 Portail ATILF
 
 
Prise en charge de la TEI P5 
 Généralités 

Le lemmatiseur est capable de tenir compte des balises rencontrées dans le texte. Les règles de traitement s'appuient sur les recommandations de la TEI.

 Balises prises en charges 

<abbr> ajout du contenu de l'attribut expan à l'unité lexicale courante (P4).
<choice>
<corr>, <sic>, <rend>
seul le contenu de corr est traité
<choice>
<abbr>, <expan>
gestion des abbréviations. Traitement de <expan>. Perte de <abbr> => sans doute à revoir pour l'affichage, il serait utile de garder une trace de abbr. Jan 2011.
<del> le contenu n'est pas traité
<foreign> le mot n'est pas lemmatisé
<front> le contenu n'est pas traité
<fw>le contenu n'est pas traité (avril 2012 bizarre?)
<gap> un caractère # est ajouté dans le mot
<head> le contenu n'est pas traité
<l> récupération de l'attribut n comme numéro de ligne/vers
<lb> récupération de l'attribut n comme numéro de ligne/vers
<msDesc>le contenu n'est pas traité
<name> considère le(s) mot(s) comme un nom propre
<note> le contenu n'est pas traité
  • attribut type : mis à 1 ou en-ligne, la note est affichée dans le texte, sinon appel de note
  • <pb> c'est la base de découpage du texte en pages
  • attribut n comme numéro de page/folio
  • attribut facs pour le fac simile (dans une version antérieure du lemmatiseur c'est l'attribut id qui est utilisé)
  • attribut ed pour gérer plusieurs paginations
  • <sic>le contenu d'un <sic> isolé est traité
    un sic rencontré dans <choice> n'est pas traité
    <w> l'attribut lemma donne le lemme, l'attribut type donne la catégorie grammaticale.

     Segmentation des mots 

    L'espace en dehors des balises est considéré comme un caractère séparateur. L'absence d'espace entre deux balises provoque le regroupement des caractères.
    <b1>rupt</b1><b2>ture</b2> 1 seul mot rupture
    <b1>rupt</b1> <b2>ture</b2> 2 mots rupt et ure
     
    Comment sont gérés la rupture de ligne <lb/> et/ou le retour à la ligne ?
    rupt<lb/>
    ure
    2 mots rupt et ure
    rupt
    ure
    2 mots rupt et ure
    rupt<lb/>ure 1 seul mot rupture
    rupt-<lb/>
    ure
    1 seul mot rupture
    rupt-
    ure
    1 seul mot rupture
    elle-<lb/>
    même
    Avec une telle règle, un mot composé est regroupé en elle-même.
    S'il y a une espace entre le tiret et la fin de ligne, les deux parties du mot ne sont pas regroupées.
    rupt-{espace}
    <lb/>ure
    2 mots rupt- et ure