Le lemmatiseur est capable de tenir compte des balises rencontrées dans le texte. Les règles de traitement s'appuient sur les recommandations de la TEI.
Balises prises en charges
<abbr>
ajout du contenu de l'attribut expan à l'unité lexicale courante (P4).
<choice> <corr>, <sic>, <rend>
seul le contenu de corr est traité
<choice> <abbr>, <expan>
gestion des abbréviations. Traitement de <expan>. Perte de <abbr> => sans doute à revoir pour l'affichage, il serait utile de garder une trace de abbr. Jan 2011.
<del>
le contenu n'est pas traité
<foreign>
le mot n'est pas lemmatisé
<front>
le contenu n'est pas traité
<fw>
le contenu n'est pas traité
(avril 2012 bizarre?)
<gap>
un caractère # est ajouté dans le mot
<head>
le contenu n'est pas traité
<l>
récupération de l'attribut n comme numéro de ligne/vers
<lb>
récupération de l'attribut n comme numéro de ligne/vers
<msDesc>
le contenu n'est pas traité
<name>
considère le(s) mot(s) comme un nom propre
<note>
le contenu n'est pas traité attribut type : mis à 1 ou en-ligne, la note est affichée dans le texte, sinon appel de note
<pb>
c'est la base de découpage du texte en pagesattribut n comme numéro de page/folioattribut facs pour le fac simile (dans une version antérieure du lemmatiseur c'est l'attribut id qui est utilisé)attribut ed pour gérer plusieurs paginations
<sic>
le contenu d'un <sic> isolé est traité un sic rencontré dans <choice> n'est pas traité
<w>
l'attribut lemma donne le lemme, l'attribut type donne la catégorie grammaticale.
Segmentation des mots
L'espace en dehors des balises est considéré comme un caractère séparateur.
L'absence d'espace entre deux balises provoque le regroupement des caractères.
<b1>rupt</b1><b2>ture</b2>
1 seul mot rupture
<b1>rupt</b1> <b2>ture</b2>
2 mots rupt et ure
Comment sont gérés la rupture de ligne <lb/> et/ou le retour à la ligne ?
rupt<lb/> ure
2 mots rupt et ure
rupt ure
2 mots rupt et ure
rupt<lb/>ure
1 seul mot rupture
rupt-<lb/> ure
1 seul mot rupture
rupt- ure
1 seul mot rupture
elle-<lb/>
même
Avec une telle règle, un mot composé est regroupé en elle-même.
S'il y a une espace entre le tiret et la fin de ligne, les deux parties du mot ne sont pas regroupées.