| Subscribe: Newsletters & News Alerts | ICANN Blog | Public Comment
Glossaire des noms de domaine internationalisés
Afin d'être certaine que les débats concernant les noms de domaine internationalisés (IDN) se déroulent de façon claire, l'ICANN a fait paraître un Glossaire IDN. Les termes de ce glossaire peuvent être employés en toute liberté et l'on prévoit que le glossaire sera enrichi avec le temps. Si vous avez des suggestions en matière d'ajouts et/ou de modifications au glossaire, veuillez nous les soumettre à l'adresse ci-après : idn-glossary@icann.org. Les commentaires seront affichés publiquement dans le forum de discussion sur le site http://forum.icann.org/lists/idn-glossary/.
Les noms de domaine sur Internet étaient traditionnellement limités à l'utilisation
d'un ensemble restreint de caractères ASCII (soit a-z, 0-9 et "-").
Toutefois, en raison de la croissance de l'utilisation d'Internet dans toutes
les régions du monde et par des groupes linguistiques très divers, la demande
de noms de domaine multilingues est devenue plus forte. Divers acronymes concernant
l'internationalisation de l'espace des noms de domaine sont couramment employés
dans les communications. On donne ci-après des explications sur bon nombre
de ces acronymes en vue de faciliter la compréhension du sujet concerné.
ACE (Encodage compatible ASCII)
L'ACE est un système d'encodage Unicode dans lequel chaque caractère peut être transmis en employant seulement un ensemble limité de caractères ASCII (soit a-z, 0-9 et "-"). Il est employé car les applications qui utilisent le protocole DNS ne peuvent traiter les autres valeurs de façon fiable.
ASCII (American Standard Code for Information Interchange)
ASCII est la norme courante de codage numérique employée pour les ordinateurs et autres dispositifs qui emploient le format texte. Les ordinateurs ne peuvent interpréter que les chiffres, et un code ASCII constitue ainsi la représentation numérique d'un caractère comme par exemple ‘a’ ou ‘@’. Lorsqu'il en est fait mention en ce qui concerne les noms de domaine ou chaînes de caractères, l'ASCII renvoie au fait qu'avant l'internationalisation seules les lettres a-z, les chiffres 0-9, et le trait d'union "-" pouvaient être employés pour les noms de domaine.
Caractère
Aux fins des discussions au sujet des IDN, un ”caractère” peut s'interpréter comme l'élément de base d'un système d'écriture qui se compose d'un script et d'un ensemble de règles fixant la façon dont il est employé pour représenter une langue particulière. Toutefois, bien qu'elles révèlent le script sur lequel elles sont basées, les étiquettes de domaine ne véhiculent aucune information intrinsèque quant à la langue avec laquelle elles doivent être associées. Malheureusement, cette dépendance de la langue ne peut être éliminée en limitant la définition du script, car dans différents cas (voir exemples ci-après), les langues partageant le même script diffèrent dans la façon d'en traiter les éléments individuels. Le terme caractère ne peut donc être défini en dehors du contexte à l'intérieur duquel il est employé.
Dans les systèmes d'écriture à base phonétique, un caractère correspond généralement à une lettre ou représente une syllabe, et dans les systèmes idéographiques (ou bien dans les systèmes pictographiques ou logographiques), un caractère peut représenter une idée ou un mot.
Les exemples qui suivent ont pour but d'illustrer que la définition d'un caractère comprend au moins deux parties, l'une étant une unité linguistique de base, et l'autre étant le point de code auquel elle est associée.
Étiquette-U 酒 : Jiu ; le mot chinois pour 'boisson alcoolique' ; le point de code Unicode est U+9152 (également désigné par : CJK UNIFIED IDEOGRAPH-9152) ; l'étiquette-A est xn—jj4.
Étiquette-U 北京 : le mot chinois pour ‘Beijing’, les points de code Unicode sont U+5300 U+4EAC ; l'étiquette-A est xn—1lq90i
Étiquette-U 東京 : le mot japonais pour ‘Tokyo’, les points de code Unicode sont U+6771 U+4EAC ; l'étiquette-A est xn—1lqs71d
Étiquette-U ایكوم ; acronyme farsi pour ICOM, les points de code Unicode sont U+0627 U+06CC U+0643 U+0648 U+0645 ; l'étiquette-A est xn—mgb0dgl27d.
Consortium Unicode
Un organisme sans but lucratif fondé dans le but de favoriser, de prolonger et de promouvoir l'utilisation de la norme Unicode. Pour plus d'informations, veuillez visiter le site http://www.unicode.org.
DNS (système de noms de domaine)
Le système DNS rend plus facile l'utilisation d'Internet en affectant une chaîne de caractères reconnaissables (le "nom de domaine") qui doit être employée au lieu de l'adresse IP un peu mystérieuse. Ainsi, au lieu de taper 207.151.159.3, vous pouvez taper www.internic.net.
Étiquette
Une étiquette est un élément distinct d'un nom de domaine. Les étiquettes sont généralement séparées par des points ; par exemple, le nom de domaine "exemple.com" est composé des deux étiquettes : "exemple", et "com".
IDNA (utilisation des noms de domaine internationalisés dans les applications)
L'IDNA est un protocole défini dans la norme RFC 3490 du groupe de travail IETF (http://www.ietf.org) qui permet aux applications d'utiliser des noms de domaine comportant des caractères non-ASCII. L'IDNA convertit les chaînes de noms de domaine comportant des caractères non-ASCII en étiquettes de noms de domaine ASCII que les applications employant le système DNS peuvent interpréter correctement. La totalité des caractères employés dans les langues du monde entier ne pourront être utilisables dans les noms de domaine. L'IDNA n'est donc pas en mesure de convertir tous les caractères de ce type en étiquettes ASCII.
IDN (nom de domaine internationalisé)
Les noms de domaine internationalisés (IDN) sont des noms de domaine faisant appel à des caractères de la langue locale. Ces noms de domaine peuvent comporter des caractères avec signes diacritiques qu'exigent la plupart des langues européennes ou des caractères différents de ceux de l'alphabet latin (par exemple arabes ou chinois).
Les IDN rendent l'étiquette de nom de domaine affichée et que va visualiser l'utilisateur différente de celle transmise dans le protocole DNS. La terminologie qui suit a pour but d'éviter toute confusion :
L'étiquette-A est l'élément transmis par le protocole DNS et elle constitue la forme ACE compatible ASCII de la chaîne de caractères IDNA ; par exemple "xn--11b5bs1di". L'étiquette U est l'élément que va visualiser l'utilisateur et elle constitue la représentation du nom de domaine internationalisé (IDN) en Unicode ; par exemple " परीका " (version "d'essai" en hindi, script devanagari). Enfin, l'étiquette LDH désigne uniquement une étiquette entièrement ASCII qui respecte les conventions de "nom de l'hôte" (LDH) et qui n'est pas un IDN ; par exemple “icann” est le nom de domaine de “icann.org”.
(les définitions d'étiquettes ci-dessus sont extraites de : http://www.ietf.org/internet-drafts/draft-klensin-idnabis-issues-01.txt)
IDN SLD ou IDN 2LD
Fait en général référence aux noms de domaine comportant des caractères locaux au second niveau, alors que le premier niveau ne comporte que des caractères ASCII. Par exemple : [παράδειγμα .essai] ("exemple.essai" en grec).
IDN TLD
Habituellement, courte référence pour les domaines de premier niveau internationalisés,
et qui permet ainsi que le nom de domaine complet soit représenté en caractères
locaux. Par exemple : [실례.테스트] ("exemple.essai" en hangul).
Langues | Scripts | Alphabets
Les langues sont employées par des communautés linguistiques. Les scripts servent à noter les informations par écrit dans les différentes langues et ce en employant les alphabets correspondants ou d'autres systèmes d'écriture.
LDH (lettre, chiffre, trait d'union)
La convention de nom de l'hôte définie dans la norme RFC 952 (modifiée ultérieurement par la norme RFC 1123) était employée dans les registres de noms de domaine avant l'internationalisation. Ceci signifiait que les noms de domaine ne pouvaient pratiquement comporter que les lettres a-z, les chiffres 0-9 et le trait d'union “-“. Le terme “points de codes LDH” désigne ce sous-ensemble. Depuis l'introduction des IDN cette règle n'est plus valable pour tous les noms de domaine, bien qu'avec l'utilisation de l'IDNA les caractères apparaissant dans le DNS restent sous la forme LDH.
Punycode
Punycode est l'algorithme d'encodage compatible LHD défini dans la norme Internet RFC 3492 et qui est employé actuellement. Il constitue la méthode permettant d'encoder une adresse IDN en séquences de caractères ASCII LHD afin que les noms puissent être compris et gérés par les applications employant le système de noms de domaine (DNS). L'idée en est que les requérants et les utilisateurs de noms de domaine ne voient jamais la forme encodée d'un nom de domaine. Son seul but est de permettre au système DNS de résoudre par exemple une adresse URL comportant des caractères locaux. Des exemples en sont donnés à étiquette A dans la rubrique "IDN".
Dans une étiquette A Punycode, le préfixe est toujours "xn--". Il est donc recommandé de réserver ce préfixe aux registres de domaines de premier niveau, afin d'éviter la confusion lorsque des enregistrements d'IDN sont introduits dans le domaine de premier niveau respectif ou s’ils l'étaient.
Unicode
Unicode est un schéma de codage simple couramment utilisé qui attribue un numéro spécifique pour chaque caractère dans une grande diversité de langues et de scripts. La norme Unicode comporte des tableaux qui donnent les "points de codes" (chiffres spécifiques) pour chaque caractère local identifié. Ces tableaux sont continuellement complétés au fur et à mesure de la numérisation des caractères.
Dans Unicode, les caractères se voient attribuer un code qui identifie spécifiquement chaque caractère dans la plupart des scripts existant dans le monde. Ces "points de code" sont des chiffres spécifiques à chaque caractère ou aspect de caractère tel qu'un accent ou une lettre double. Unicode contient plus d'un million de points de code qui s'écrivent sous forme d'un "U" suivi du signe plus et de leur chiffre spécifique en notation hexadécimale ; par exemple, le mot Hello" s'écrit U+0048 U+0065 U+006C U+006C U+006F.
URL
Acronyme pour "Uniform Resource Locator", une chaîne de caractères utilisée pour adresser les documents et autre ressources sur l'Internet. Définie par l'IETF dans la norme RFC 2396, une URL se compose de deux parties séparées par le signe deux-points (":"). La première partie de l'adresse indique le protocole à employer, par ex., http, ftp, etc., et la deuxième partie précise l'adresse IP ou le nom de domaine dans lequel se trouve la ressource.
UTF-8
L'Unicode Transformation Format 8 bits est une méthode de codage pour l'Unicode dans laquelle chaque caractère peut être transmis en employant des valeurs numériques 8 bits. L'UTF-8 est couramment employé comme méthode de transmission des données 8 bits et prévaut sur Internet.