|
Généralités
|
|
Le lemmatiseur est capable de tenir compte des balises rencontrées dans le texte. Les règles de traitement s'appuient sur les recommandations de la TEI.
|
|
Balises prises en charges
|
|
<abbr>
| ajout du contenu de l'attribut expan à l'unité lexicale courante (P4).
| <choice> <corr>, <sic>, <rend> | seul le contenu de corr est traité
| <choice> <abbr>, <expan> | gestion des abbréviations. Traitement de <expan>. Perte de <abbr> => sans doute à revoir pour l'affichage, il serait utile de garder une trace de abbr. Jan 2011. | <del>
| le contenu n'est pas traité
| <foreign>
| le mot n'est pas lemmatisé
| <front>
| le contenu n'est pas traité
| <fw> | le contenu n'est pas traité
(avril 2012 bizarre?) | <gap>
| un caractère # est ajouté dans le mot
| <head>
| le contenu n'est pas traité
| <l>
| récupération de l'attribut n comme numéro de ligne/vers
| <lb>
| récupération de l'attribut n comme numéro de ligne/vers
| <msDesc> | le contenu n'est pas traité
| <name>
| considère le(s) mot(s) comme un nom propre
| <note>
| le contenu n'est pas traité attribut type : mis à 1 ou en-ligne, la note est affichée dans le texte, sinon appel de note | <pb>
| c'est la base de découpage du texte en pagesattribut n comme numéro de page/folioattribut facs pour le fac simile (dans une version antérieure du lemmatiseur c'est l'attribut id qui est utilisé)attribut ed pour gérer plusieurs paginations | <sic> | le contenu d'un <sic> isolé est traité un sic rencontré dans <choice> n'est pas traité | <w>
| l'attribut lemma donne le lemme, l'attribut type donne la catégorie grammaticale.
|
|
|
Segmentation des mots
|
|
L'espace en dehors des balises est considéré comme un caractère séparateur.
L'absence d'espace entre deux balises provoque le regroupement des caractères.
| <b1>rupt</b1><b2>ture</b2>
| 1 seul mot rupture | <b1>rupt</b1> <b2>ture</b2>
| 2 mots rupt et ure |
| Comment sont gérés la rupture de ligne <lb/> et/ou le retour à la ligne ? | rupt<lb/> ure
| 2 mots rupt et ure | rupt ure
| 2 mots rupt et ure | rupt<lb/>ure
| 1 seul mot rupture | rupt-<lb/> ure
| 1 seul mot rupture
| rupt- ure
| 1 seul mot rupture | elle-<lb/>
même
| Avec une telle règle, un mot composé est regroupé en elle-même. | S'il y a une espace entre le tiret et la fin de ligne, les deux parties du mot ne sont pas regroupées.
| rupt-{espace}
<lb/>ure
| 2 mots rupt- et ure |
|
|