Le lemmatiseur produit du bruit. En effet sur des mots très courants il peux proposer des analyses multiples inadéquate. Par exemple pour l'article le il propose effectivement LE mais aussi LÉ, subst.. Si le mot LÉ était effectivement présent dans le texte, il faudrait le baliser en tant que tel avec la balise <w> pour ne pas être éliminé.
Liste des hypothèses éliminées.
La gestion des hypothèses émises par le lemmatiseur est complexe. L'algorithme ne parvient pas toujours à éliminer les lemmes identiques qui apparaissent pour une même forme. Un second programme est chargé de traiter le fichier résultat.
|