Blogs de l’ICANN

Lisez les blogs de l’ICANN pour vous tenir au courant des dernières activités d’élaboration de politiques, des événements régionaux et bien plus encore.

Célébrons un progrès majeur réalisé par la communauté concernant le lancement de TLD multilingues

2 mars 2016
Par

En plus des six langues des Nations Unies, ce contenu est aussi disponible en

null

Le 2 mars 2016 a été lancée la première version des Règles de génération d'étiquettes de la zone racine (LGR-1). Celle-ci facilite l'utilisation du script arabe, tandis que les prochaines versions faciliteront l'utilisation d'autres scripts. Cet accomplissement fait suite aux propositions de LGR de la zone racine, soumises en novembre 2015 par les communautés partageant les scripts arabe et arménien.

La mise en pratique des premières LGR de la zone racine constitue un réel pas en avant vers le développement d'un Internet multilingue. Ces règles offrent une méthode ouverte et transparente pour déterminer la validité des variantes des noms de domaine de premier niveau (TLD), ou étiquettes, dans les différents scripts et systèmes d'écriture existants. Les LGR-1 sont le fruit des efforts intensifs fournis par le Panel de génération communautaire de script arabe, le Panel d'intégration et bien d'autres acteurs. Ce travail profite aux internautes actuels et futurs qui utilisent le script arabe en leur facilitant la navigation sur le web, et permet de dissiper la confusion et de régler des questions de sécurité dans le cadre de l'utilisation du système des noms de domaine, et plus particulièrement des TLD.

Merci à tous ceux qui ont contribué à cette première étape majeure !

Vers les LGR-1 : Le Panel de génération de script arabe

L'Équipe spéciale communautaire sur les noms de domaine internationalisés en script arabe (TF-AIDN) s'est formée pendant la deuxième moitié de 2013 et a officiellement commencé sa mission en tant que Panel de génération de script arabe en février 2014. L'arabe est l'un des scripts les plus complexes à examiner car il est utilisé dans différentes langues à travers l'Asie et l'Afrique, ce qui entraîne de nombreuses variations en termes de formes des lettres et d'utilisation. Lorsqu'elles sont mineures, ces variations d'écriture ne sont pas forcément remarquées par les personnes – y compris au sein de la communauté partageant le script arabe – qui ne connaissent pas toutes les utilisations de ce script, ce qui engendre une certaine confusion entre les étiquettes. Par exemple, il est possible de confondre کتاب (kitab, « livre ») et ڪتاب, ce dernier étant interprété comme une variation stylistique. Ces différences contribuent à la complexité inhérente de ce script, qui comprend déjà des formes cursives des lettres dépendant du contexte et bon nombre de signes diacritiques accompagnant à la fois des consonnes et des voyelles.

L'utilisation du script arabe étant très diversifiée du point de vue tant géographique que linguistique, les premiers membres du Panel de génération ont eu pour premier défi de recruter des experts représentatifs dans plusieurs domaines, notamment la linguistique, la technologie, la politique et la communauté des utilisateurs finaux. Ils ont donc collaboré avec l'équipe de l'ICANN chargée de la participation des parties prenantes mondiales pour trouver 33 membres venus de 21 pays, ce qui offre une impressionnante diversité d'utilisateurs du script arabe !

S'est ensuivi un processus de développement de 18 mois comprenant des milliers de courriels, des dizaines de réunions en ligne, un certain nombre de débats animés, quelques compromis linguistiques difficiles et beaucoup de travail. Au cours de sa mission de définition des LGR-1, le Panel de génération a réalisé trois tâches essentielles :

  1. Examiner les points de code Unicode à inclure

    En premier lieu, le Panel a dû déterminer quels points de code pouvaient être utilisés pour créer des étiquettes. Il a commencé par dresser une petite liste, qui contenait quand même plus de 200 points de code. Ce travail impliquait de trouver des sources fiables afin de vérifier si chaque point de code était bien utilisé dans le langage contemporain et actif, et de l'exclure dans le cas contraire. Cette tâche n'a pas été aisée, notamment lorsqu'il n'existe aucune documentation sur l'utilisation du script arabe par certaines populations car le pays emploie officiellement un autre script, comme le cyrillique ou le latin. Cette situation s'est présentée pour des populations d'Asie et d'Afrique.

  2. Définir les variantes de points de code

    Il a été difficile de déterminer ce que serait une variante dans le script arabe car dans bien des cas, la communauté partageant ce script pouvait considérer deux points de code comme équivalents, notamment les homographes, les variations stylistiques, ainsi que le placement et l'orientation de points et d'autres signes. Par ailleurs, certaines variantes sont liées d'un point de vue sémantique mais se présentent sous des formes graphiques différentes, fruit de contextes culturels et de considérations phonologiques divers. S'il s'est montré ouvert quant à la définition d'une variante pour gérer la confusion des utilisateurs finaux, le Panel de génération a également dû limiter le nombre pouvant être alloué de variantes d'étiquettes générées par les variantes de points de code, en raison du conservatisme de la zone racine. Cette tâche s'est révélée ardue car les différentes communautés ont dû trouver des compromis en ce qui concerne leurs expressions linguistiques.

  3. Définir les règles complètes d'évaluation d'étiquettes n'autorisant que les étiquettes valides

    Un nouveau défi s'est présenté au moment d'établir les LGR. Il n'a pas été facile de définir les règles linguistiques s'appliquant à la vérification des étiquettes au niveau du script. Les règles d'épellation et d'autres critères sont généralement fondés sur les langues et non sur les scripts, et peuvent ne pas s'appliquer aux étiquettes de domaine car les étiquettes ne se limitent pas aux mots existant vraiment dans une langue. Le Panel de génération a résolu ce problème en fixant comme critère le caractère utilisable des étiquettes. Par exemple, il a établi des règles permettant de rejeter les étiquettes nécessitant de jongler entre des claviers en différentes langues en utilisant le script arabe.

Quelle est la prochaine étape ? Il est désormais possible de déterminer quelles sont les variantes des TLD en script arabe pouvant être allouées. La communauté doit se mettre d'accord sur la façon de mettre en œuvre et de déléguer ces TLD. Ce travail est en cours et l'ICANN demandera bientôt l'avis de la communauté sur les mécanismes qui seront employés pour gérer les variantes de TLD.

Le projet des LGR se poursuit

Les volontaires de la communauté pour les autres scripts et systèmes d'écriture œuvrent assidûment à achever les propositions de LGR pour leurs scripts. En voici un petit résumé :

  • Le Panel de génération de script arménien a terminé son travail et soumis sa proposition en novembre 2015, soit en un temps record de six mois. Néanmoins, en raison des différents homographes dans les scripts cyrillique, grec et latin, le Panel d'intégration a repoussé sa mission. Le travail des autres panels de génération aidera à mieux comprendre les conséquences de ces interactions.
  • Les communautés chinoise, japonaise et coréenne utilisent plusieurs scripts pour écrire leurs langues respectives. Les panels de génération examinent leurs langues séparément et coordonnent le travail réalisé pour parvenir à une solution commune visant à intégrer le script han, commun à tous.
  • Les communautés partageant les scripts khmer, lao et thaï ont bien progressé. Les panels de génération débattent intensément avec le Panel d'intégration pour finaliser les règles complètes d'évaluation d'étiquettes fondées sur des scripts complexes. La même situation se présente avec les scripts dérivés du système d'écriture complexe brahmi.
  • Les communautés partageant les scripts cyrillique, grec et latin en sont à différentes étapes de leurs analyses respectives. Une fois qu'elles auront fini leur travail en interne, elles pourront commencer à se coordonner pour déterminer les variantes entre leurs scripts et le script arménien.
  • Les panels de génération de script éthiopien et néo-brahmi se sont formés. Ces communautés ont commencé le travail et prennent connaissance des conditions à respecter au cours de ce processus. Une mission délicate attend le Panel de génération de script néo-brahmi, car celui-ci travaille en même temps sur neuf scripts différents de la région.
  • Le personnel de l'ICANN s'est mis en relation avec les communautés partageant les scripts géorgien, hébreu, cingalais et thaana pour les encourager à s'organiser et commencer à travailler sur leurs propositions de LGR respectives.

Statut du travail des panels de génération sur les LGR de la zone racine (mars 2016)

Bar graph showing status of work on Root Zone LGR by the Generation Panels (in March 2016)

Lorsque ces différentes communautés auront achevé leurs propositions, celles-ci seront progressivement intégrées aux prochaines versions des LGR, permettant ainsi aux communautés concernées de déterminer la validité des variantes d'étiquettes dans ces scripts.

Je suis très heureux des progrès réalisés à ce jour et attends avec impatience les autres propositions de LGR. Je remercie tout particulièrement tous les volontaires qui comprennent l'importance de cette entreprise et fournissent autant d'efforts pour faire de l'Internet multilingue une réalité.

Pour en savoir plus sur les Règles de génération d'étiquettes, consultez les anciens articles de blog (en anglais) à ce sujet, présentant les LGR de la zone racine, la collaboration nécessaire et les défis affrontés. Pour en savoir plus sur le travail du Programme des IDN de l'ICANN, rendez-vous sur icann.org/idn ou écrivez à IDNProgram@icann.org.

Authors

Sarmad Hussain

Sarmad Hussain

Senior Director IDN and UA Programs