Normalisation et état des lieux de la prise en charge de l amazighe et des tifinaghes

Please download to get full document.

View again

of 20
81 views
PDF
All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
Document Description
Normalisation et état des lieux de la prise en charge de l amazighe et des tifinaghes Patrick Andries Conseils Hapax, Québec, Canada Membre du consortium Unicode Résumé. Lors de cette
Document Share
Documents Related
Document Transcript
Normalisation et état des lieux de la prise en charge de l amazighe et des tifinaghes Patrick Andries Conseils Hapax, Québec, Canada Membre du consortium Unicode Résumé. Lors de cette communication, nous nous pencherons sur le chemin parcouru depuis le codage des caractères tifinaghes dans l ISO et Unicode en Il y a huit ans, il était impossible d envoyer des documents en tifinaghes sans se référer à un codage de police privé. Aujourd hui, on peut créer des pages HTML, des documents XML en tifinaghes, envoyer des courriels. Il existe un clavier normalisé pour saisir des textes tifinaghes, une norme de tri, Microsoft fournit une police qui prend en charge les tifinaghes. L utilisateur peut désormais voir des pages HTML sans qu il n ait à explicitement installer de polices tifinaghes sur son système. Des bibliothèques logicielles comme ICU prennent également en charge les tifinaghes et il est possible, en théorie, d avoir des noms de domaine Internet en tifinaghes. Mots-clés. Unicode, tifinagh, ISO 10646, amazighe, informatique, réseaux, jeux de caractères, normalisation, polices embarquées, polices incorporées, XML, noms de domaine, IDNA 2008, NDI, courriel, messagerie, touareg, navigateurs, internet, WOFF, Foucauld, biconsonnes, ligatures, diacritiques, Windows 8, ISO Introduction Le 31 mars 2005, Unicode 4.1 était publié. Il comprenait tous les tifinaghes normalisés de l IRCAM ainsi que les principaux caractères touaregs et kabyles. Avant cette date, il n existait aucune façon de coder de manière normalisée des textes tifinaghes. Chaque producteur utilisait un codage, le plus souvent de son cru, lié à une police particulière. Il était donc virtuellement impossible d échanger des documents produits par des personnes qui utilisaient des polices tifinaghes différentes. C était vrai 1 Asinag n 9 pour les courriels, les documents Word, les pages HTML en général et, bien sûr, celles d une encyclopédie en ligne naissante comme Wikipédia. Depuis huit ans bien des choses ont changé : les tifinaghes normalisés sont désormais de plus en plus présents sur Internet et dans d autres produits et normes informatiques. Nous allons brièvement passer en revue ci-dessous ces heureuses améliorations. 2 Les caractères Unicode Le lecteur de cette communication connaît certainement les premiers caractères tifinaghes qui ont été codés dans Unicode 4.1 en mars 2005, car ils ont fait l objet de plusieurs communications de l IRCAM et de ses chercheurs 1. Il ignore peut-être certaines précisions apportées depuis 2005 qui se retrouvent dans les dernières versions d Unicode. 2.1 Les diacritiques Plusieurs variantes tifinaghes modernes utilisent des diacritiques pour compléter les lettres du bloc tifinaghe. C est ainsi que la notation Hawad utilise des diacritiques du bloc [U+0300-U+036F] commun à de nombreuses transcriptions latines. Ces signes s utilisent pour représenter des voyelles ou des consonnes étrangères. Dans cette notation, U+2D35, U+0307 représente un «a» court, U+2D49, U+0304 un «i» long /i:/ et U+2D31, U+0302 permet d écrire un «p». On indique certaines voyelles longues à l aide de deux signes diacritiques, un «é» long /e:/ s écrit U+2D49, U+0307, U+0304 . Ces signes sont affichés côte à côte, et non empilés, au-dessus de la lettre de base dans l ordre d apparition dans la chaîne codée. 2.2 Quatre caractères ajoutés dans Unicode 6.0 et 6.1 Deux caractères tifinaghes ont été ajoutés dans Unicode 6.0 (et bien sûr dans la version correspondante de l ISO/CEI 10646) : U+2D70 SÉPARATEUR TIFINAGHE = tazaraste U+2D7F LIANT DE CONSONNES TIFINAGHE 1 Voir, par exemple, Lahbib ZENKOUAR, L'Écriture amazighe tifinagh et Unicode, revue Études et Documents Berbères vol. 22, 2004, pp Aspects informatiques : que de chemin parcouru Le caractère U+2D70 est ce signe targui dont Prasse dit 2 «Au Hoggar on nous a donné le séparateur, à l intérieur duquel s écrivait la dernière lettre de chaque mot phonétique.» Les deux figures ci-dessous illustrent l utilisation de ce séparateur. On remarquera que le signe est réfléchi quand il s écrit dans un contexte de droite à gauche. Figure 1 Exemple d'utilisation du séparateur de mot, Sud de l'algérie Figure 2 Utilisation au Niger dans un contexte gauche à droite Le liant de consonnes U+2D7F est un caractère de commande qui permet de forcer la formation d une biconsonne. Nous étudierons son utilisation dans la section 2.3. Ligatures. Unicode 6.1 a par la suite ajouté deux caractères : U+2D66 ⵦ LETTRE TIFINAGHE YÉ U+2D67 ⵧ LETTRE TIFINAGHE YO 2 Karl-G. PRASSE, Manuel de Grammaire touarègue, Éditions de l Université de Copenhague, 1972, p Asinag n 9 YÉ et YO sont simplement deux voyelles préconisées par l APT (Association pour la promotion des tifinaghs) au Niger pour transcrire les voyelles «é» et «o». 2.3 Ligatures Dès le codage des tifinaghes dans Unicode 4.1, il était possible de préciser que l on préfèrerait obtenir une biconsonne (ou une triconsonne) en insérant un U+200D apple liant sans chasse entre les consonnes qui constituent la ligature souhaitée. On peut également utiliser U+200C antiliant sans chasse entre deux consonnes pour décourager la formation d une ligature à partir de ces deux lettres. C est ainsi que l on peut demander la formation de la biconsonne «rt» en écrivant U+2D54, U+U200D, U+2D5C (ⵔ apple ⵜ). Les polices pourvues d une telle ligature devraient en présence de ces caractères afficher le glyphe de celle-ci, par exemple,,, ou selon la police. Il existe également quelques cas de triconsonnes : parmi celles-ci notons le groupe consonantique «nft» ⵏⴼⵜ dont la ligature est parfois et «nkn» ⵏⴾⵏ représenté dans certaines régions par. Pour bien fixer les idées, on demandera la formation optionnelle de la ligature «nkn» à l aide de la suite suivante de caractères : U+2D4F, U+200D, U+2D3E, U+200D, U+2D4F . Certaines polices pourront être dépourvues de ligatures, d autres n en inclure que pour certaines variantes géographiques. Si une police venait à ne pas avoir de ligature correspondant à la suite de caractères liée par un liant sans chasse, la police devrait simplement afficher les deux consonnes de base, à savoir ⵔⵜ dans notre exemple ci-dessus. Toutefois, aux yeux d aucuns, il est apparu que le liant sans chasse qui n indique que la formation facultative d une biconsonne ne suffisait pas. Il fallait pouvoir préciser qu une biconsonne devait impérativement être formée car la présence de cette ligature, dans une graphie non voyellée, indique l absence d une voyelle implicite entre les consonnes qui forment la ligature. C est à cet effet qu a été introduit dans Unicode 6.0 U+2D7F liant de consonnes tifinaghe. Ce caractère de commande impose la formation de la ligature. À ce titre, il joue un rôle similaire au U+0652 soukoûn, le signe de quiescence arabe. Le tableau ci-dessous 4 Aspects informatiques : que de chemin parcouru illustre l utilité d une telle convention, les exemples sont tirés du dictionnaire de Foucauld 3. Lettres de base ⵏⴾⵔ ⵜⵗⵔⵜ ⵙⵜⵗ ⵜⴼⵔⵜ ⵏⴸⵔ Graphie touarègue Translittération Glose en français ⵔ ənkər se lever (inhabituel) ⵏⴾⵔ nâkːər se lever (habituel) ⵜⵗ teɣert marmite en terre ⵜⵗⵔⵜ teɣərit cri strident, très perçant ⵗ 4 istəɣ chasser, pousser devant soi ⵙⵜⵗ ɔsataɣ chasse, poursuite ⵜ təfert mot, proposition, vers ⵜ ⵔⵜ tefərit petite aiguille rocheuse ⵔ əndər excéder les forces ⵏⴸⵔ ənadar fait d être en chaleur, en rut Dans les exemples ci-dessus, comme les biconsonnes sont considérées comme obligatoires, on n utilisera pas de U+200D liant sans chasse, mais bien un U+2D7F liant de consonnes tifinagh. Le verbe chasser ⵗ se codera donc U+2D59, U+2D7F, U+2D5C, U+2D57 . Unicode prescrit que, si une biconsonne obligatoire ne peut être affichée à l aide d une ligature correcte, le système de rendu devra faire apparaître le liant de consonnes tifinaghe (LCT) de manière visible afin de bien indiquer l absence de voyelle entre les deux consonnes. Cela pourra prendre la forme d un losange, d un ou de tout autre glyphe. Unicode ne prescrit pas ce glyphe de repli. La forme de repli de S, LCT, T sera donc gs,, gt où gs est un glyphe de S, gt un glyphe de T et est un glyphe qui indique la présence du liant de consonnes tifinaghe. Rappelons que si un système de rendu ne peut afficher une biconsonne optionnelle, c est-à-dire dont les consonnes de base sont 3 Charles Eugène de FOUCAULD, Dictionnaire touareg français, dialecte de l Ahaggar. 4 volumes, Imprimerie nationale, Paris, On aurait aussi pu mettre à la place de. 5 Asinag n 9 séparées par un U+200D liant sans chasse (LSC), la forme de repli consiste simplement dans l affichage des consonnes constitutives de cette ligature. La forme de repli de S, LSC, T est donc gs, gt . 3 Indicatif de langue [zgh] de l ISO 639 En novembre 2012, le comité de l ISO a approuvé l ajout d un indicatif [zgh] dans la liste officielle des noms de langues 5 qu elle tient à jour. Il désigne l «amazighe standard marocain» soit la norme convergente préconisée par l IRCAM qui intègre les trois parlers amazighes du Maroc. Avant cette addition, il n existait aucun moyen de préciser qu un document numérique (écrit ou parlé) était en «amazighe standard marocain». Il fallait soit utiliser un indicatif comme [ber] qui représente toutes les langues de la famille berbère (y compris notamment le kabyle et le touareg) soit choisir de désigner le texte comme une des variantes «dialectales» de l amazighe marocain. On peut désormais indiquer qu un document est en amazighe standard marocain avec l attribut lang égale à «zgh». Dans une page HTML (voir l extrait ci-dessous) dont la langue principale est l amazighe standard marocain, on l indiquera en ajoutant un attribut lang= zgh sur la balise correspondant au corps de la page ( body ) : html body lang= zgh h1 ⴰⴳⵍⴷⵓⵏ ⴰⵎⵥⵥⴰ /h1 p ⵙ ⵡⴰⵡⴰⵍ ⴳⵔⵉ ⵉⴷⵙ, ⵙⵙⵏⵖ ⵢⴰⵜ ⵜⵖⴰⵡⵙⴰ ⵜⵉⵙⵙ ⵙⵏⴰⵜ ⵉⵅⴰⵜⵔⵏ: ⵉⵜⵔⵉ ⵙⴳ ⴷⴷ ⵉⴷⴷⴰ ⵓⵔ ⵉⵎⵇⵇⵓⵔ, ⵉⵍⵍⴰ ⵖⴰⵙ ⴰⵏⵛⵜ ⵏ ⵢⴰⵜ ⵜⴰⴷⴷⴰⵔⵜ! /p p ⴰⵢⴰ ⵓⴽⵣⵖ ⵜ. ⵙⵙⵏⵖ ⵉⵙ ⴱⵕⵕⴰ ⵏ 4 Claviers 4.1 Clavier national normalisé Depuis la normalisation des tifinaghes dans l ISO et Unicode, un clavier normalisé marocain pour la saisie de ces caractères a été homologué par le SNIMA 6. Ce clavier respecte la norme internationale en la matière, l ISO/CEI Il a été repris par plusieurs fabricants de Linux et inclus par Microsoft dans Windows 8. Normalisé il y a plusieurs Aspects informatiques : que de chemin parcouru années, ce clavier ne comprend pas les caractères tifinaghes introduits par Unicode 6.0 et Clavier tifinagh sur Windows 8 Microsoft a adopté le clavier SNIMA dans Window 8 : Pour le sélectionner, l utilisateur doit ajouter un profil linguistique à partir du Panneau de configuration de Windows. Le profil linguistique regroupe une langue et une méthode d entrée correspondante. La langue correspond à un indicatif ISO 639. Dans Windows 8, le seul indicatif «berbère» disponible est [tzm] à savoir le parler amazighe de l Atlas central. À partir de Windows 8.1, une nouvelle langue et son indicatif sont disponibles : l amazighe standard marocain [zgh]. 7 Asinag n 9 L illustration ci-dessus représente le dialogue de préférence linguistique dans Windows 8.1, la prochaine version de Windows. Au moment d écrire ces lignes, il n était pas encore totalement traduit en français. Une fois le clavier tifinaghe et la langue amazighe choisis, les lettres ⵣⵖ apparaissent en bas à droite de l écran pour indiquer que le clavier actif est amazighe. Sur l illustration ci-dessus, le clavier actif est canadien-français (FRA/CAFR). 5 Norme de tri Un ordre précis de tri des caractères tifinaghes a également été normalisé par le SNIMA, il s agit d un «delta» de la norme internationale en la matière, l ISO/CEI Le même ordre est également mis en œuvre par les tris de caractères Unicode (voir ci-dessus 8. Les bibliothèques logicielles). 6 Les documents XML, HTML Les fichiers XML peuvent en général contenir sans encombre du contenu tifinaghe. Ces documents comme l extrait ci-dessous sont conformes. ?xml version= 1.0 encoding= utf-8 ? texte xml:lang= ber lang= ber h1 ⴰⴳⵍⴷⵓⵏ ⴰⵎⵥⵥⴰ /h1 p ⵙ ⵡⴰⵡⴰⵍ ⴳⵔⵉ ⵉⴷⵙ, ⵙⵙⵏⵖ ⵢⴰⵜ ⵜⵖⴰⵡⵙⴰ ⵜⵉⵙⵙ ⵙⵏⴰⵜ ⵉⵅⴰⵜⵔⵏ: ⵉⵜⵔⵉ ⵙⴳ ⴷⴷ ⵉⴷⴷⴰ ⵓⵔ ⵉⵎⵇⵇⵓⵔ, ⵉⵍⵍⴰ ⵖⴰⵙ ⴰⵏⵛⵜ ⵏ ⵢⴰⵜ ⵜⴰⴷⴷⴰⵔⵜ! /p /texte En 2008, lors d une précédente communication 7 où nous avons abordé ce sujet, il existait une restriction dans les caractères admis dans les noms d élément et d attribut ainsi que dans certaines 8 valeurs d attribut dans les documents XML 1.0. En effet, à l époque, XML 1.0 ne permettait pour ces noms que des caractères appartenant au répertoire d Unicode 2.0. Cela signifiait que ces noms ne pouvaient contenir des caractères tifinaghes, ou d autres provenant d écritures comme l éthiopien également introduits après Unicode 2.0, pas plus que des 7 Patrick ANDRIES, Demain encore plus de tifinaghes sur Internet, Actes du colloque du CEISIC, Rabat, Les attributs CDATA peuvent contenir n importe quoi, la restriction était sur les attributs déclarés ID, IDREF, NMTOKEN, etc. 8 Aspects informatiques : que de chemin parcouru caractères importants récemment ajoutés à des écritures qui existaient déjà dans Unicode 2.0 comme le latin, l arabe, le cyrillique ou le chinois. Il n était donc pas permis d écrire en XHTML : a name= ⵜⵗ id= ⵜⵗ attribut touareg /a Pas plus que ceci n était permis en XML 1.0 : ⵜⵗⵔⵜ /ⵜⵗⵔⵜ Au vu de cette incongruité, le W3C chargé de la normalisation de XML a décidé de publier à la fin 2008 (le 26 novembre très précisément) la cinquième édition de XML Outre la mise à jour de quelques références bibliographiques et la correction de quelques errata, le grand changement introduit par cette édition est de permettre la quasi-totalité des caractères Unicode et notamment les tifinaghes dans les noms d élément et d attribut ainsi que les valeurs d attribut. En théorie, la pratique est identique à la théorie, mais en pratique ça peut bien sûr être différent. Pour qu'un nom d élément en tifinaghes soit accepté par un logiciel de traitement de documents XML, il faut tout de même que les analyseurs (parseurs) XML soient modifiés pour mettre en œuvre la nouvelle règle de formation des noms. Il faudra donc encore attendre quelques années avant que les analyseurs en place soient mis à jour pour que l échange de documents XML/XHTML avec des tifinaghes dans les noms d éléments et d attributs puisse se faire sans encombre. Par contre, si vos documents XML ne sont utilisés qu en interne où vous contrôlez les analyseurs XML, il se peut que, en mettant à jour ceux-ci pour choisir une version qui prend en charge la cinquième édition de XML 1.0, vous puissiez dès aujourd hui utiliser des documents XML dont les noms d élément, d attribut et les valeurs d attributs contiennent des tifinaghes. 7 Les polices 7.1 Ebrima sur Windows Depuis Windows 7, Microsoft inclut en série dans son système d exploitation une police «panafricaine», la police Ebrima. Elle est fournie en deux graisses : normale et grasse. Ebrima a été conçue pour prendre en charge un grand nombre de langues africaines. Elle contient des glyphes pour le n ko, les tifinaghes, le vaï et l osmanya. Les glyphes 9 http://www.w3.org/tr/2008/rec-xml / 9 Asinag n 9 latins de la police sont accompagnés des diacritiques et autres signes utilisés pour représenter les langues africaines. Les œils tifinaghes d Ebrima sont directement inspirés de ceux utilisés dans les tableaux Unicode (c est-à-dire de Hapax Berbère). La police Ebrima ne comprend pas les deux voyelles nigériennes (yé et yo) introduites par Unicode 6.1, elle comprend cependant depuis Windows 8 plusieurs innovations par rapport aux versions précédentes : 1. On peut ajouter des diacritiques à toute lettre tifinaghe 10 : 2. De nombreuses biconsonnes ont été ajoutées à la police, elles sont formées à l aide du U+2D7F LIANT DE CONSONNES TIFINAGHE, notamment 3. Quand une biconsonne ne peut être formée parce qu elle n est pas prise en charge par la police, Ebrima affiche une série de points souscrits sous la paire de consonnes : 7.2 Les polices incorporées dans les pages HTML Avec une écriture aussi récente en termes de normalisation informatique que le tifinaghe, il n est pas rare qu un utilisateur qui désire afficher une page Internet qui contient des caractères tifinaghes n ait pas de police tifinaghe à sa disposition. Malgré la diffusion récente d Ebrima, le problème demeure entier aujourd hui, car il existe encore de nombreux utilisateurs qui n utilisent pas Windows et a fortiori Windows Ceci fonctionne bien avec les trois grands navigateurs (Chrome, Firefox et Internet Explorer) et dans Windows 8.1 avec MS Word Figure 3 Police manquante dans une page HTML Aspects informatiques : que de chemin parcouru En outre, que faire quand on veut être sûr qu une page s affiche dans un style tifinaghe particulier? On risque donc dans ces cas-là d être confronté à des pages remplies de petits rectangles blancs comme dans l illustration ci-dessous, chaque rectangle y représente un caractère (tifinaghe ici) qui ne peut être représenté par manque de police adéquate. Il existe plusieurs remèdes possibles à ce désagrément. Une solution consiste à prévenir les lecteurs des pages en tifinaghe qu ils doivent installer une ou plusieurs polices en fournissant un lien permettant de télécharger ces polices. Il existe cependant une autre solution : les polices dynamiquement téléchargeables. Cette solution consiste à envoyer les glyphes nécessaires à l affichage d une page HTML avec la page en question. On parle alors de polices embarquées ou incorporées. Il y a près de deux ans, en 2008, nous avions déjà abordé les techniques alors disponibles 11. Rappelons que les polices incorporables dans les pages HTML ne sont pas une idée neuve. Dès 1998, CSS 2 permettait de préciser un lien vers une police que les fureteurs internet pouvaient télécharger. Microsoft et Netscape prirent en charge cette syntaxe et permettaient de télécharger des polices. Malheureusement, aucun des deux fabricants ne prenait en charge directement le format de police le plus populaire : TrueType. Microsoft choisit le format de police EOT (un format propriétaire) dans Internet Explorer 4.0 alors que 11 Patrick ANDRIES, Demain encore plus de tifinaghes sur Internet, Actes du colloque du CEISIC, Rabat, Asinag n 9 Netscape 4.0 jeta son dévolu sur un format rival TrueDoc qu il abandonna deux versions plus tard, car Mozilla ne pouvait rendre public le code source de TrueDoc, propriété de Bitstream. Depuis 2008, cette question a connu un vif regain d intérêt. À partir de 2010, on a assisté à un véritablement engouement pour les polices internet. Subitement, coup sur coup, on a assisté à l élaboration d un format de police conçue pour le téléchargement sur Internet (WOFF), la prise en charge de ce standard naissant par les quatre grands concepteurs de moteurs de composition HTML 12 et enfin la mise en place de nombreux sites de partage ou de vente de polices incorporables dans des pages HTML WOFF WOFF est un format de po
Similar documents
View more...
Search Related
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks
SAVE OUR EARTH

We need your sign to support Project to invent "SMART AND CONTROLLABLE REFLECTIVE BALLOONS" to cover the Sun and Save Our Earth.

More details...

Sign Now!

We are very appreciated for your Prompt Action!

x