Über Apprentissage d¿un étiqueteur morphosyntaxique de la langue amazighe
Comme la plupart des langues qui n¿ont que récemment commencé les investigations en Traitement Automatique des Langues (TAL), la langue amazighe est peu dotée en ressources et outils du TAL. Dans ce sens, l¿un des objectifs principaux de ce travail est de doter cette langue de son premier étiqueteur morphosyntaxique. L¿étiquetage morphosyntaxique est la première couche au-dessus du niveau lexical et le niveau le plus bas de l'analyse syntaxique et de toutes les tâches du TAL traitant des niveaux linguistiques supérieurs. Cette tâche produit des informations supplémentaires au texte en entrée; chose très bénéfique pour les autres tâches du TAL l¿utilisant. Afin d¿atteindre cet objectif, nous avons formé deux modèles de classification de séquences, à savoir: les SVMs et les CRFs. Aussi, nous avons construit un corpus d¿environ un quart de million de mots, dont nous avons utilisé le caractère informatif des mots hors vocabulaire et la mesure de confiance à même de réduire le taux d¿erreur de l¿étiqueteur. Pour améliorer la précision de notre étiqueteur morphosyntaxique, nous avons également exploré une ressource lexicale enrichie avec les étiquettes grammaticales.
Mehr anzeigen