Skip to main content

Поддержка лингвистического разнообразия в Африке для имен доменов верхнего уровня в интернете

Тридцать различных языков – таким был результат быстрого опроса двадцати участников семинара IDN, которых попросили перечислить языки, на которых они говорят. ICANN организовала семинар на Саммите Африки по интернету в Найроби 28 мая 2017 года. Этот ответ демонстрирует пример огромного лингвистического разнообразия в Африке, где использование нескольких языков – или многоязычие – является нормой. На всем континенте говорят, как минимум, на 2 144 языках, а у отдельных стран (например, у Нигерии) – 520 языков. Для сравнения: в Европе говорят на 287 языках.

В силу исторических обстоятельств на африканском континенте сначала появилась письменная форма коммуникации, а египетские иероглифы [PDF, 947 KB] – одни из древнейших письменных систем, которые были обнаружены. Но большая часть современных африканских языков имеет только устную форму – без письменной. Тем не менее, согласно оценкам, более 500 языков имеют письменную форму. Неудивительно, что такое разнообразие систем письменности, созданных африканцами, отражает разнообразие, встречающееся в устных формах языка: до 29 наборов символов были созданы в Африке – объединив в себе почти все известные типы символов, в том числе абджады, абугиды, алфавиты, силлабическое письмо и лого-силлабическое письмо. Возможно, 21 из этих наборов символов продолжает использоваться; новые наборы символов постоянно создаются, бросая в некотором роде вызов современным классификациям лингвистики, например, яркий радужный алфавит оракл, созданный всего лишь в 1999 году. Более широко распространенные наборы символов включают тифинаг,например; это древний набор символов, использовавшийся с третьего века до нашей эры (до н. э.), который был восстановлен в 20 веке и теперь используется в стандартизированном виде для обучения берберским языкам, например, аамазигху учеников начальных школ в Марокко. К примеру, посмотрите на букварь аамазигха, разработанный Королевским институтом аамазигхской культуры.

Другие примеры включают эфиопский [PDF, 189 KB] набор символов, который используется для многих языков в Эфиопии и Эритрее, силлабическое письмо Ваи [PDF, 209 KB], которое используется для языка Ваи в Либерии, или алфавит Нко [PDF, 112 KB], который используется для семейства языков под названием манден в Западной Африке. Некоторые алфавиты остались в прошлом и уже вышли из употребления, другие (например, Нко) привлекают внимание пользовательских сообществ и в современном мире могут быть представлены в цифровом виде. Например, многим наборам символов не хватает ресурсов, например, шрифтов или методов ввода, они также не поддерживаются и не признаются на официальном уровне.

Наиболее часто используемые наборы символов в Африке – иностранные, а именно: арабский алфавит (именуемый в некоторых языковых сообществах «аджами») и латинский алфавит. Эти алфавиты были расширены, чтобы отражать дополнительные звуки локальных языков в Африке. Среди примеров имеются щелкающие звуки, используемые в языках Южной и Восточной Африки, например, латеральные аффрикаты (послушайте произношение), описываемые символами, которые не считаются буквами в других языках (например, двойной чертой ǁ), или очень сложными последовательностями букв (например, gǁx' ([ᶢǁʢ] в международной системе фонетической транскрипции) в джул'хоанси – языке, на котором говорят в Намибии и Ботсване. Также поступили и с арабским алфавитом: ввели новые буквы, чтобы отражать местные звуки, например, преназализованные согласные /mb/ или /ᵐbʷ/ (послушайте произношение) в чимиини [PDF, 438 KB], на этом языке говорят в Сомали (так как поддержка этого шрифта ограничена, см. U+08B6 [PDF, 126 KB], зашифрованный стандартом Unicode, для просмотра его написания).

Кроме того, использование нескольких наборов символов одним языковым сообществом – называемое «мультискриптурализм» – чрезвычайно распространено в Африке. Например, созданы две версии национального чадского алфавита (ANT): одна на базе латинского алфавита, а другая на базе арабского. Сообщества, использующие язык сара, могут записывать его любым набором символом, например слово «лев» пишется как «ɓəl» на латинском ANT и как «ٻّلْ » – на арабском ANT, как показано здесь.

Выдержка из национального чадского алфавита. В зеленом столбике дан французский перевод слов из чадского языка, приведенного в синем столбике, как в форме на основе латинского алфавита (красный столбик), так и в форме на основе арабского алфавита (желтый столбик). (Таблица представлена в предложении Прист (Priest) и Хоскен (Hosken) [PDF, 4.53 MB] из Décret fixant l'Alphabet National du Tchad, 2010.)

 

В настоящий момент ICANN запускает программу поддержки интернационализи-рованных доменных имен (IDN) в качестве доменов верхнего уровня (TLD). Она разрабатывает Правила генерирования меток для корневой зоны (RZ-LGR) для поддержки различных наборов символов. Работа ведется под руководством комиссий от сообществ (называемых «Комиссии по выработке правил», GP), которые регистрируют использование набора символов исходя из процедуры, [PDF, 1.39 MB] окончательного утверждения сообществом. GP по арабскому алфавиту уже завершила работу и поддерживает основные африканские языки, которые записываются на арабском алфавите. Совсем недавно GP по эфиопскому алфавиту также завершила свое предложение по интеграции в RZ-LGR.

GP по латинскому алфавиту также начала работу и исследует использование этого набора символов в Африке, помимо других континентов. Определить, как сильно был расширен латинский алфавит, чтобы удовлетворить потребности африканских языков, непросто из-за ограниченной документации. Поэтому ICANN взывает к сообществам в Африке, чтобы они приняли в этом участие. С этой целью ICANN проводит ежегодные семинары IDN в Африке – Конго в 2015 году, Аддис-Абеба в 2016 году и Найроби в 2017 году.

Несмотря на то, что ICANN получила определенное выражение заинтересованности, необходимо больше добровольцев из Африки для GP по латинскому алфавиту, чтобы продвинуться в этой важной работе. Прошу вас прислать электронное письмо по адресу IDNProgram@icann.org, если вы хотите принять участие или задать какие-либо вопросы.

В настоящий момент проект RZ-LGR включает арабский, эфиопский и латинский алфавиты касательно Африки. ICANN продолжит оказывать поддержку другим наборам символов в Африке для IDN TLD, если они активно используются в соответствующих сообществах и если эти сообщества смогут выразить достаточный интерес, сформировав GP и разработав предложения для RZ-LGR.

Более подробную информацию о Программе IDN в ICANN см. на сайте www.icann.org/idn.

Comments

    Domain Name System
    Internationalized Domain Name ,IDN,"IDNs are domain names that include characters used in the local representation of languages that are not written with the twenty-six letters of the basic Latin alphabet ""a-z"". An IDN can contain Latin letters with diacritical marks, as required by many European languages, or may consist of characters from non-Latin scripts such as Arabic or Chinese. Many languages also use other types of digits than the European ""0-9"". The basic Latin alphabet together with the European-Arabic digits are, for the purpose of domain names, termed ""ASCII characters"" (ASCII = American Standard Code for Information Interchange). These are also included in the broader range of ""Unicode characters"" that provides the basis for IDNs. The ""hostname rule"" requires that all domain names of the type under consideration here are stored in the DNS using only the ASCII characters listed above, with the one further addition of the hyphen ""-"". The Unicode form of an IDN therefore requires special encoding before it is entered into the DNS. The following terminology is used when distinguishing between these forms: A domain name consists of a series of ""labels"" (separated by ""dots""). The ASCII form of an IDN label is termed an ""A-label"". All operations defined in the DNS protocol use A-labels exclusively. The Unicode form, which a user expects to be displayed, is termed a ""U-label"". The difference may be illustrated with the Hindi word for ""test"" — परीका — appearing here as a U-label would (in the Devanagari script). A special form of ""ASCII compatible encoding"" (abbreviated ACE) is applied to this to produce the corresponding A-label: xn--11b5bs1di. A domain name that only includes ASCII letters, digits, and hyphens is termed an ""LDH label"". Although the definitions of A-labels and LDH-labels overlap, a name consisting exclusively of LDH labels, such as""icann.org"" is not an IDN."