Skip to main content

Soutenir la diversité linguistique de l'Afrique pour les noms de domaine Internet de premier niveau

Trente langues différentes…c'est le résultat d'un rapide sondage demandant aux vingt participants assistant à l'atelier IDN de lister les langues qu'ils parlent. L'ICANN a organisé l'atelier lors du sommet africain de l'Internet à Nairobi le 28 mai 2017. Cette réponse illustre la grande diversité linguistique de l'Afrique, où l'utilisation de plusieurs langues (ou le multilinguisme) est la norme. Il existe au moins 2 144 langues parlées à travers le continent, et des pays comme le Nigeria ont jusqu'à 520 langues. Pour comparer, 287 langues sont parlées en Europe.

Historiquement, l'Afrique fait partie des lieux où la communication écrite a été établie en premier, avec les hiéroglyphes égyptiens [PDF, 947 KB] qui sont parmi les systèmes d'écriture découverts les plus anciens. Mais la plupart des langues africaines utilisées aujourd'hui ne sont que parlées et non pas de formes écrites. Les estimations montrent tout de même que plus de 500 langues ont une forme écrite. Il n'est pas surprenant que la diversité des systèmes d'écriture créés par les africains reflète la diversité des langues parlées : jusqu'à 29 scripts ont vu leur création en Afrique, ce qui touche presque tous les types de scripts connus, dont les abjads, les abugidas, les alphabets, les syllabaires, et les logosyllabaires. 21 de ces scripts sont probablement toujours utilisés et de nouveaux sont continuellement créés, certains défiant les classifications linguistiques actuelles, comme le script de l'oracle des couleurs arc-en-ciel créé aussi récemment qu'en 1999. Parmi les scripts les plus largement utilisés existe le tifinagh, par exemple, un ancien script utilisé depuis le 3e siècle avant notre ère, qui a été relancé au 20e siècle et qui est désormais utilisé dans une forme normalisée pour enseigner les langues berbères comme l'amazigh aux enfants d'école primaire au Maroc. À titre d'exemple, voici le livre scolaire en amazigh développé par l'Institut royal de la culture amazighe.

Il existe d'autres exemples comme le script éthiopien [PDF, 189 KB] utilisé dans beaucoup de langues en Éthiopie et en Érythrée, le vaï [PDF, 209 KB] syllabaire utilisé pour la langue vaï au Liberia, ou le n'ko [PDF, 112 KB], alphabet utilisé pour une famille de langues appelée mandingues en Afrique de l'ouest. Certains scripts sont aujourd'hui historiques et sont tombés en désuétude, alors que d'autres comme le n'ko ont des communautés utilisatrices viables et peuvent être numériquement représentés aujourd'hui. Cependant, beaucoup de scripts manquent de ressources comme les méthodes basées sur les polices ou les entrées, et ne bénéficient pas d'un soutien ou d'une reconnaissance officiels.

Les scripts les plus largement utilisés en Afrique sont des scripts étrangers introduit avec le temps, à savoir le script arabe (appelé adjami dans certaines communautés) et le script latin. Ces scripts ont été étendus pour représenter les sonorités supplémentaires des langues locales d'Afrique. Par exemple les clics consonantiques utilisés par des langues d'Afrique de l'ouest et de l'est comme les clics alvéolaires latéraux (écouter la prononciation), écrits avec des symboles qui n'ont pas d'équivalent en lettres dans d'autres langues (comme le double tube ǁ), ou par des séquences de lettres très complexes (comme gǁx' ([ᶢǁʢ] dans l'alphabet international phonétique) en juǀʼhoansi, une langue de Namibie et du Botswana. La même chose a été réalisée pour le script arabe, avec de nouvelles lettres créées pour représenter des sonorités locales comme le point prénasalisé /mb/ ou /ᵐbʷ/ (écouter la prononciation) en chimiini [PDF, 438 KB], une langue de Somalie (comme il existe une police limitée pour cette lettre, voir le U+08B6 [PDF, 126 KB] encodé par la norme Unicode pour visualiser son orthographe).

De plus, l'utilisation de multiples scripts par une même communauté de langues, appelée le multiscripturalisme, est très commune en Afrique. Par exemple, deux versions de l'alphabet national du Tchad (ANT) ont été créées, une à partir du script latin et une autre à partir du script arabe.  Les communautés utilisant la langue sar peuvent écrire dans un script ou dans l'autre, par exemple, le mot pour lion s'écrit “ɓəl” en ANT latin et ٻّلْ en ANT arabe.

Extrait de l'alphabet national du Tchad. La colonne verte donne les traductions françaises des mots de la langue tchadienne entendus dans la colonne bleue, à la fois en script latin (colonne rouge) et en script arabe (colonne jaune). (Tableau présenté dans uneproposition par Priest et Hosken [PDF, 4.53 MB] du Décret fixant l'Alphabet National du Tchad, 2010.)

 

L'ICANN entreprend actuellement un programme pour soutenir les noms de domaine internationalisés (IDN) en tant que domaines de premier niveau (TLD). Elle développe des règles de génération d'étiquettes pour la zone racine (RZ-LGR) pour soutenir les différents scripts. Ce travail est mené par des panels communautaires (appelés panel de génération, GP) qui documentent l'utilisation du script à partir de la procédure [PDF, 1.39 MB] finalisée par la communauté. Le panel de génération du script arabe a déjà finalisé son travail et soutien les principales langues africaines qui sont rédigées dans un script arabe. Plus récemment, le panel de général du script éthiopien a également finalisé sa proposition d'intégration au sein du RZ-LGR.

Le panel de génération du script latin a également commencé son travail et fait des recherches sur l'utilisation du script en Afrique, ainsi que sur d'autres continents. Il est difficile de déterminer comment le script latin a été étendu pour répondre aux besoins des langues africaines étant donné qu'il existe peu de documentation à ce sujet. Par conséquent, l'ICANN a créé des liens avec les communautés d'Afrique pour les impliquer dans cette mesure. L'ICANN organise des ateliers IDN annuels en Afrique sur ce thème, au Congo en 2015, à Addis-Abeba en 2016 et à Nairobi en 2017.

Bien que l'ICANN ait reçu une certaine manifestation d'intérêt, il faut plus de volontaires provenant d'Afrique pour le panel de génération latin pour faire avancer ce travail important. Merci d'envoyer un courriel à IDNProgram@icann.org si vous souhaitez participer ou si vous avez des questions.

Le projet du RZ-LGR inclut actuellement des scripts arabe, éthiopien et latin dans le contexte de l'Afrique. L'ICANN va soutenir d'autres scripts en Afrique pour les TLD IDN, s'ils sont activement utilisés par les communautés en question, et si celles-ci montrent un intérêt suffisant pour former des panels de génération et développer des propositions pour le RZ-LGR.

Rendez-vous sur le site www.icann.org/idn pour obtenir plus de détails sur le programme IDN de l'ICANN.

Comments

    Domain Name System
    Internationalized Domain Name ,IDN,"IDNs are domain names that include characters used in the local representation of languages that are not written with the twenty-six letters of the basic Latin alphabet ""a-z"". An IDN can contain Latin letters with diacritical marks, as required by many European languages, or may consist of characters from non-Latin scripts such as Arabic or Chinese. Many languages also use other types of digits than the European ""0-9"". The basic Latin alphabet together with the European-Arabic digits are, for the purpose of domain names, termed ""ASCII characters"" (ASCII = American Standard Code for Information Interchange). These are also included in the broader range of ""Unicode characters"" that provides the basis for IDNs. The ""hostname rule"" requires that all domain names of the type under consideration here are stored in the DNS using only the ASCII characters listed above, with the one further addition of the hyphen ""-"". The Unicode form of an IDN therefore requires special encoding before it is entered into the DNS. The following terminology is used when distinguishing between these forms: A domain name consists of a series of ""labels"" (separated by ""dots""). The ASCII form of an IDN label is termed an ""A-label"". All operations defined in the DNS protocol use A-labels exclusively. The Unicode form, which a user expects to be displayed, is termed a ""U-label"". The difference may be illustrated with the Hindi word for ""test"" — परीका — appearing here as a U-label would (in the Devanagari script). A special form of ""ASCII compatible encoding"" (abbreviated ACE) is applied to this to produce the corresponding A-label: xn--11b5bs1di. A domain name that only includes ASCII letters, digits, and hyphens is termed an ""LDH label"". Although the definitions of A-labels and LDH-labels overlap, a name consisting exclusively of LDH labels, such as""icann.org"" is not an IDN."