Etiquetage Morphosyntaxique de l Amazighe :Particularités et Enjeux

Please download to get full document.

View again

of 13
12 views
PDF
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Document Description
Résumé. Etiquetage Morphosyntaxique de l Amazighe :Particularités et Enjeux Samir Amri 1, Lahbib Zenkouar 1, Mohamed Outahajala 2 1 Ecole Mohammadia d Ingénieurs, Rabat, Maroc 2 Institut
Document Share
Documents Related
Document Transcript
Résumé. Etiquetage Morphosyntaxique de l Amazighe :Particularités et Enjeux Samir Amri 1, Lahbib Zenkouar 1, Mohamed Outahajala 2 1 Ecole Mohammadia d Ingénieurs, Rabat, Maroc 2 Institut Royal de la Culture Amazighe (IRCAM), Rabat, Maroc L objectif principal de ce papier est de présenter les particularités et les enjeux relatifs à la tâche d étiquetage morphosyntaxique. En effet, l étiquetage morphosyntaxique est une partie vitale de toute application du Traitement Automatique des Langues Naturelles (analyseur syntaxique, traducteur automatique, correcteur orthographique ), car la performance de toute application dépend, entre autres, de la performance de l étiqueteur morphosyntaque qu elle utilise. Ainsi, et afin de réaliser un étiqueteur morphosyntaxique efficace, on doit s intéresser à améliorer la qualité des trois phases suivantes: la phase de segmentation, la phase d organisation des unités lexicales, et la phase de désambiguïsation. Mots-clés: apprentissage automatique, étiquetage morphosyntaxique, langue Amazighe, annotation, SVM, CRF, TALN, TALAM, HMM. 1. Introduction L Amazighe est parmi les langues peu dotées et les moins utilisées sur Internet, d où la motivation et la nécessité de son informatisation et de son développement en Traitement Automatique des Langues Naturelles (TALN). D ailleurs beaucoup de recherches ont dirigé cette tâche du TALN et ont abouti à diverses approches et algorithmes qui ont conduit fréquemment à des applications et aux systèmes sophistiqués. D'un point de vue général, pour la mise en œuvre d'outils du TALN, les chercheurs ont besoin: - d unités de base pour la segmentation des phrases et des mots, et l'analyse morphologique, syntaxique ou sémantique. - des ressources linguistiques (dictionnaires et des agrégats, données lexicales, corpus...). - des expertises au niveau linguistique ou au niveau d apprentissage automatique (Machine Learning en Anglais). Au niveau de cet article on va se focaliser sur la discipline de l étiquetage morphosyntaxique qui est une étape indispensable et primordiale pour la réalisation de la plupart des applications du TALN, car il peut déterminer la catégorie grammaticale des mots de texte et la description des différentes unités de base dans les applications grand public telles que l analyse syntaxique, la génération automatique des résumés et la recherche d'information...etc. Il est également très utile dans le traitement des mots pour les systèmes d'optimisation des performances et la reconnaissance vocale. En général l étiquetage morphosyntaxique est une étape nécessaire et difficile à faire, nous avons décidé de mettre l'accent sur ce problème en particulier pour la langue amazighe. La suite de cet article est structurée comme suit : la deuxième Section est consacrée à l état de l art de la langue amazighe et le TALN, ensuite on discutera l étiquetage morphosyntaxique. La troisième Section sera dédiée à une discussion sur les prérequis nécessaires et les points à améliorer pour avoir des systèmes d étiquetage morphosyntaxiques complets robustes et surtout efficaces pour la langue amazighe. Enfin on conclura avec un ensemble de perspectives pour les travaux futurs dans le domaine du traitement automatique de la langue amazighe. 2. Amazighe et TALN 2.1 Aperçu sur la langue Amazighe L Amazighe est parlé sous forme de plusieurs dialectes et parlers. Ces derniers sont utilisés sur un grand territoire qui couvre de nombreux pays: Egypte, Libye, Tunisie, Algérie, Maroc, Mali, Niger, Mauritanie. Cependant l Algérie et le Maroc sont les deux pays où est concentré le plus grand nombre d Imazighen dans le sens qu être amazighe c est parler un des parlers de la langue. Selon les régions, ces parlers prennent des noms différents. Ainsi en Algérie, nous nous retrouvons notamment les parlers Kabyle, Mozabite et Chaoui. Au Maroc, il y a trois parlers principaux: Tarifit au nord du Maroc, Tachelhit au sud-ouest du royaume et Tamazight au Maroc central. Malgré des nombreuses recherches, la langue Amazighe est considérée comme une langue difficile à maitriser à cause de sa richesse morphologique. Les travaux de recherche dans le TALN ont abordé des problématiques variées comme la morphologie, la traduction automatique, l indexation des documents, etc. Au cours de ce passage nous présenterons les particularités de la langue Amazighe ainsi que certaines de ses propriétés morphologiques et syntaxiques. La création de l Institut Royal de la Culture Amazighe(IRCAM) en 2001 et l officialisation de la langue amazighe en 2011 ont permis la promotion de la langue Amazighe, et il a permis d'obtenir une orthographe officielle (Ameur et al., 2004), le codage approprié dans le standard Unicode (Andries, 2008; Zenkouar, 2008), les structures linguistiques (Ameur et al.,2004; Boukhris et al., 2008). La langue Amazighe possède sa propre graphie, Tifinaghe, un système alphabétique standard plus adéquat et utilisable pour tous les parlers amazighes actuels. Ainsi en 2003, l IRCAM a développé un système d alphabet sous le nom de Tifinaghe-IRCAM. L alphabet standardisé par l IRCAM est basé sur un système graphique à tendance phonologique, cet alphabet comporte : - 27 consonnes dont : les labiales (ⴼ, ⴼ, ⴼ), les dentales (ⴼ, ⴼ, ⴼ, ⴼ, ⴼ, ⴼ, ⴼ, ⴼ), les alvéolaires (ⴼ, ⴼ, ⴼ, ⴼ), les palatales (ⴼ, ⴼ), les vélaires (ⴼ, ⴼ), les labiovélaires (ⴼⴼ, ⴼⴼ), les uvulaires (ⴼ, ⴼ, ⴼ), les pharyngales (ⴼ, ⴼ) et la laryngale (ⴼ). - 2 semi-consonnes : ⴼ et ⴼ. - 4 voyelles : trois voyelles pleines ⴼ, ⴼ, ⴼ et la voyelle neutre ⴼ qui a un statut assez particulier en phonologie Amazighe. D ailleurs c est la translitération en alphabet latin qui est utilisée dans tous les exemples présentés dans cet article. Dans le lexique de la langue Amazighe, on distingue trois catégories principales de mots : Les verbes, les noms et les particules (Boukhris et al., 2008) qui se subdivisent elles-mêmes en différentes sous catégories: préposition, conjonction, pronom, article, interjection et adverbe : - Le nom est soit au masculin, soit au féminin. Il est au pluriel ou au singulier: le pluriel commence à partir de deux comme en Français. Le nom est soit à l état libre ou à l état d annexion. Par exemple pour le nom masculin : afus /ifassn (main/mains), igr/igran (champ/champs), pour le nom féminin: tuzzalt/tuzzalin (couteau/couteaux), tasarut/tisura (clef/clés). - Le verbe se construit généralement par l affixation et la composition. Certains verbes sont des dérivations par affixation (préfixes, suffixes), d autre verbes ne sont pas nécessairement dérivés de noms, ils sont composés soit à partir d un verbe et d un nom, soit à partir de deux verbes, sans oublier bien évidemment les aspects de la conjugaison qui impactent parfois la morphologie du verbe d une façon significative. Exemple du verbe en Amazighe : sw(boire), ddu (aller), rwl(courir). - Les pronoms sont isolés des mots auxquels ils se réfèrent. Les pronoms en langue Amazighe sont soit démonstratifs, exclamatifs, indéfinis, interrogatifs, personnels, possessifs ou relatifs. - Les adverbes sont subdivisés en adverbes de lieu, de temps, de quantité, de manière et les adverbes interrogatifs. - Les prépositions sont un ensemble de caractères indépendants par rapport au nom qu'elles précèdent; cependant si la préposition est suivie d un pronom personnel, la préposition et le pronom personnel forment une seule chaîne délimitée par des blancs ou bien un blanc et une marque de ponctuation. - Les particules sont toujours isolées, elles sont de plusieurs types: Les particules aspectuelles telles que «ar, ad». La particule de négation «ur». Les particules d orientation «s». La particule de prédication «d». - Les déterminants prennent toujours la forme d un seul mot délimité par deux espaces, ils sont divisés en articles, démonstratifs, exclamatifs, articles indéfinis, interrogatifs, chiffres ordinaux, possessifs, présentatifs et quantificateur. - Les marques de ponctuation en Amazighe marocain sont similaires aux marques de ponctuation adoptées par les langues internationales, elles ont les mêmes fonctions. 2.2 Traitement automatique de la langue Amazighe (TALAM) Le traitement automatique d une langue naturelle (TALN) est divisé d une façon générale en deux parties : - Traitement de langue: concerne les systèmes capables de se comporter comme des lecteurs/auditeurs. - Génération de langue : concerne les systèmes capables de se comporter comme des rédacteurs/producteurs. Après cette subdivision, on entrevoit des niveaux dans le TALN : - Le niveau phonologie: interprétation du discours à travers les mots. - Le niveau morphologique: traite la composition des mots (préfixe, suffixe, radical,...). - Le niveau lexical: donne un sens au mot pris individuellement. - Le niveau syntaxique: découvre la structure grammaticale de la phrase. - Le niveau sémantique: traite le sens des mots et des phrases. - Le niveau conversation: traite du sens global des corpus. Il ne considère pas un texte comme une concaténation de phrases, mais comme un ensemble pourvu de sens. - Le niveau pragmatique: explicite les sens implicites des phrases et mots. En ce qui concerne le TALAM, la langue Amazighe ne possède pas suffisamment des ressources linguistiques et d outils TALN (Outahajala et al. 2015). Toutefois on va lister quelques travaux déjà faits pour le TALAM : - L alphabet Tifinaghe est intégré par le standard Unicode, ce qui a permis le développement d'outils adaptés au traitement de cette langue (Rachidi et Mammass, 2005). - La création des claviers et polices de caractères dédiés à l écriture Tifinaghe (IRCAM, 2003b; IRCAM, 2004). - Les travaux de translittération des textes écrits en alphabet tifinaghe vers l alphabet arabe ou latin (Ataa Allah et al. 2013). - La construction d un grand corpus annoté pour la langue Amazighe (Outahajala et al., 2014). - Le projet de reconnaissance des caractères Tifinaghes fait en 2009 (Ait Ouguengay et al., 2009). - L analyseur morphologique pour les noms Amazighes (Raiss & Cavalli Sforza, 2012). - Le conjugueur des verbes de la langue Amazighe. (Ataa Allah et Boulaknadel, 2014). - Le pseudo-racineur (Ataa Allah et Boulaknadel, 2010). - Le concordancier (Boulaknadel, 2009), permettant la recherche d un mot quelconque dans un ensemble de textes afin d étudier son emploi. De ce qui précède on peut constater que le domaine du TALAM a besoin de vision et de stratégie de tout le monde (chercheurs, linguistes ) pour réussir ce grand chantier et d apporter à la communauté scientifique et au grand public des systèmes et des projets pertinents et de grande valeur ajoutée. 3. L étiquetage morphosyntaxique de la langue Amazighe Il s agit d un processus de détecter la catégorie morphosyntaxique d un mot dans un contexte, cette action est non triviale du traitement automatique de la langue écrite. En effet rendre un ordinateur capable de connaître la catégorie grammaticale d un mot exige de mettre en œuvre des méthodes sophistiquées, en particulier pour les mots ambigus, c'est-à-dire susceptibles d appartenir à plusieurs catégories différentes. Les systèmes automatiques dédiés à cette activité sont appelés des étiqueteurs morphosyntaxiques (Part- Of-Speech tagger en Anglais). Ceux-ci consistent à affecter des étiquettes morphosyntaxiques propres à chaque mot d'une phrase d'un texte (catégorie grammaticale, informations morphologiques comme le genre, le nombre, l état...etc). L'étiquetage correct par exemple de la phrase (idda yidir s tmzgida) est comme suit : idda.verbe yidir.nom propre s.préposition tmzgida.nom. La principale difficulté de l'étiquetage morphosyntaxique vient du fait que les mots de la langue sont ambigus, c est à dire que l'on peut affecter plusieurs étiquettes à un mot donné de la phrase. Un étiqueteur morphosyntaxique doit donc effectuer une phase de désambigüisation afin de sélectionner une séquence d'étiquettes possibles pour la séquence de mots de la phrase, et si possible la séquence correcte. D ailleurs l'étiquetage morphosyntaxique a été largement étudié par le passé, il est maintenant considéré comme un problème relativement résolu pour quelques langues comme l Anglais et le Français. Les performances des étiqueteurs actuels de ces langues étant très élevées (environ 97,50% de mots correctement étiquetés). Pour aborder cette discipline, plusieurs approches ont été proposées pour annoter automatiquement les mots d'un texte (figure1). Le mécanisme de l étiquetage morphosyntaxique se base généralement sur l hypothèse que la catégorie d un mot dépend de son contexte local, qui peut par exemple se réduire au mot ou aux deux qui le précèdent. Dans ce qui suit nous allons présenter différentes méthodes d étiquetage morphosyntaxique, et effectuer un bref recensement des étiqueteurs qui existent en particulier pour la langue Amazighe. Il existe deux grandes familles d étiqueteurs : - Les étiqueteurs symboliques sont ceux qui appliquent des règles qui leur ont été communiquées par des experts humains. Dans ce type d étiqueteurs, il y a très peu d automatisation; c est le designer qui manipule toutes les règles d étiquetage et qui fournit au besoin une liste des morphèmes. La conception n est pas automatisée : l étiqueteur fournit un étiquetage automatique une fois ses règles élaborées. La conception d un tel étiqueteur est longue et coûteuse. De plus, les étiqueteurs ainsi conçus ne sont pas facilement portables, c est-à-dire ils ne sont efficaces que pour une langue donnée et un domaine donnée (exemple: la finance, la politique, etc.). - Les étiqueteurs avec apprentissage automatique (Machine Learning en Anglais) sur lesquels nous allons nous concentrer dans la suite de cette étude. Parmi les étiqueteurs de ce type, il existe deux grands types: les étiqueteurs supervisés qui apprennent à partir de corpus pré-étiquetés (Brill, 1993 ; Khoja, 2001 ; Diab et al., 2004) et les étiqueteurs non supervisés qui apprennent à partir de corpus bruts sans information additionnelle. Qu ils soient supervisés ou non, les étiqueteurs avec apprentissage peuvent être regroupés en trois familles: systèmes à base de règles, statistiques ou neuronal. Figure1 : Les différentes méthodes d étiquetage morphosyntaxique avec apprentissage automatique L étiquetage à base des règles possède des points forts suivants: son fondement linguistique, ses règles lisibles et modifiables manuellement, sa facilité à la compréhension des erreurs, sa base de connaissances qui peut être modifiée: suppression de règles ou ajout de nouvelles règles. La grande faiblesse de cet étiquetage réside dans le problème de contradiction entre les règles, ce qui nécessite de disposer des dictionnaires de règles qui est un travail manuel et couteux. D un point de vue général ce sont des systèmes plus rapides mais moins précis. Alors que l intérêt de l approche statistique de l étiquetage réside dans le fait qu on peut déterminer correctement la catégorie d un mot sans l avoir jamais vu auparavant. 4. Étiqueteurs morphosyntaxiques Au début de ce paragraphe on va lister quelques étiqueteurs morphosyntaxiques qui sont disponibles pour la recherche scientifique (tableau 1), et qui jouissent d un grand avantage du fait qu ils sont tous indépendants de la langue, il suffit pour les implémenter d avoir un corpus pour l apprentissage et un autre pour les tests et un lexique pour quelquesuns (TreeTagger). Etiqueteurs Référence Technique utilisée TreeTagger (supervisé) Trigrams n Tags(TnT) (supervisé) SVMTool (supervisé) CRF++ (supervisé) (Schmidt,1994) (Brants,2000) (Giménez and Marquez,2006) (Lafferty, J. McCallum, A. and Pereira, F. 2001) Modèle de Markov Caché (MMC) et Arbres de décisions Modèle de Markov Caché (MMC) Séparateurs à Vaste Marge (SVM) Champs Markoviens Conditionnels (CRF) Yamha (supervisé) TakuKudo, Yuji Séparateurs à Vaste Matsumoto (2000) Marge (SVM) MXPOST (supervisé) (Ratnaparkhi,1994) Entropie maximale Stanford Pos Tagger (supervisé) Unsupos (non supervisé) (Toutanova and Manning, 2000) (Chris Biemann s,2007) Entropie maximale Viterbi Brill (supervisé) (Brill, 1992) Règles lexicales + Règles contextuelles Tableau 1 : Quelques étiqueteurs disponibles à la recherche avec référence et technique d apprentissage automatique Les mots inconnus, semblent être un problème pour tous les étiqueteurs basés sur des algorithmes d'apprentissage qui produisent des modèles de langage. Cependant certains mentionnés peuvent être modifiés pour tenir compte également des connaissances lexicales et effectuer la lemmatisation également, en particulier Brill et CRF++. Stanford et MXPOST peuvent être extensibles aussi bien, mais leur code est plutôt complexe, ce qui rend probablement le développement d'extensions difficile. Quant à Unsupos, l'approche de l'apprentissage non supervisé reste une piste si le corpus annotés n est pas disponible pour la langue à étudier. En terme des performances, les modèles probabilistes discriminants comme les modèles de maximum d entropie (Ratnaparkhi, 1994; Toutanova et al., 2003), les séparateurs à vaste marge (Giménez et Márquez., 2004) ou les champs markoviens conditionnels (Tsuruoka et al., 2009) fournissent de bons résultats en étiquetage morphosyntaxique. 4.1 Corpus de travail et jeu d étiquettes Un corpus est une collection de divers matériaux rassemblés selon un ensemble de critères afin qu il soit représentatif et balancé. L utilisation des corpus constitue une phase critique des systèmes du TALN basés sur des méthodes statistiques (Habash et Rambow, 2005). Les corpus les plus populaires pour l Anglais sont le Brown Corpus (Kurcera et Francis, 1967) qui contient environ un million de mots et le Penn Treebank qui est un corpus commercialisé par le Consortium des Données Linguistiques (LDC). Pour la langue Arabe le premier corpus annoté réalisé est celui de Khoja et ses co-auteurs, ce corpus contient mots annotés (Khoja et al., 2001). D autres corpus sont utilisés tels le Penn Arabic Treebank (Maamouri et al., 2004) et le Prague Arabic Dependency Treebank (Smrz et Hajic, 2006). Pour les langues disposant de peu de ressources électroniques et peu informatisées comme la langue Amazighe, la motivation principale d avoir un corpus annoté est obtenir des données d entraînement pour les étiqueteurs morphosyntaxiques d une part et d autre part fournir aux applications du TALAM un outil de base. Malgré les différentes recherches effectuées sur le traitement automatique de la langue Amazighe, il est difficile de trouver des ressources linguistiques toutes faites, on peut citer le corpus annoté manuellement (Outahajala et al., 2015). Ce corpus contient 20k mots utilisant un jeu d étiquette(tagset en Anglais) décrit dans le tableau 2, il s agit d une étape importante pour un travail d étiquetage lexical qui doit être basé sur les classes de mots de la langue et doit refléter toutes les relations morphosyntaxiques des mots du corpus Amazighe: Etiquette attributs et sous attributs avec le nombre des valeurs Nom genre(3), nombre(3), état(2), dérivation(2), POS sous classification(4), nombre du possesseur(3), genre du possesseur(3), personne(3) Verbe genre(3), nombre(3), personne(3), aspect(3), négation(2), forme(2), dérivation(2), voix(2) Adjectif genre(3), nombre(3), état(2), dérivation(2), POS sous classification(3) Pronom genre(3), nombre(3), personne(3), POS sous classification(7), déictique(3) Determinant genre(3), nombre (3), POS sous classification(11), déictique(3) Adverbe POS sous classification(6) Préposition genre(3), nombre(3), personne(3), nombre du possesseur(3),genre du possesseur(3) Conjonction POS sous classification(2) Interjection Focalisateur Particule POS sous classification(7) Focaliseur Focaliseur Résiduel POS sous classification(5), genre(3), nombre(3) Ponctuation type de la marque de ponctuation(16) Tableau 2 : Jeu d étiquette de base utilisé lors de l étiquetage morphosyntaxique de l Amazighe Dans le cas de la langue Amazighe, la question de la classification des ca
Similar documents
View more...
Search Related
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks