ru

Лингвистическое многообразие в корневой зоне интернета: на примере арабского алфавита и джави

8 сентября 2015

Rinalia Abdul Rahim

В дополнение к языкам, использующимся в ООН, этот материал также доступен на

Представление многих языков и алфавитов в корневой зоне интернета

Интернет-корпорация по присвоению имен и номеров (ICANN) управляет корневой зоной глобального интернета. Корневая зона содержит официальный список и регистрационные записи всех доменов верхнего уровня (TLD). С момента создания интернета в корневой зоне было разрешено размещать только подмножество TLD на основе латинского алфавита. Причиной этого являлась история создания и унаследованная модель системы доменных имен (DNS). Первоначально в DNS была предусмотрена обработка только латинского алфавита в формате ASCII.1 В 2010 году было реализовано техническое решение, позволяющее внедрять на верхнем уровне DNS доменные имена на нескольких алфавитах и языках без дестабилизации интернета.

Существует четыре типа TLD, имеющих отношение к пользователям интернета: национальные домены верхнего уровня (ccTLD), домены общего пользования верхнего уровня (gTLD), национальные IDN-домены верхнего уровня (IDN ccTLD) и IDN-домены общего пользования верхнего уровня (IDN gTLD). TLD, подпадающие под категорию национальных доменов, представляют собой официальные наименования стран и территорий, которые определены в международном стандарте ISO3166-1.2 TLD общего пользования — это имена или представления имен, не связанные с официальными названиями стран и территорий. Интернационализированными доменными именами (IDN) называются доменные имена на нескольких алфавитах и языках, которые выходят за рамки основного набора символов ASCII.3 См. вставку 1, где приведены примеры доменов верхнего уровня по категориям.

Вставка 1. Элементы доменного имени и примеры доменов верхнего уровня по категориям

Что такое элементы доменного имени?

Доменные имена систематизированы в соответствии с иерархией меток от самого нижнего уровня до самого верхнего уровня системы доменных имен (DNS). Пример: en.wikipedia.org. Здесь «org» — элемент доменного имени на самом высоком или верхнем уровне, «wikipedia» — элемент доменного имени на втором уровне, а «en» — элемент доменного имени на третьем и самом нижнем уровне.

Примеры доменов верхнего уровня (TLD) по категориям

ccTLD

.de (Германия) | .et (Эфиопия) | .my (Малайзия) | .pr (Пуэрто-Рико)

IDN ccTLD

مصر (Египет) | 中国 (Китай) | भारत (Индия) | ไทย (Таиланд)

gTLD

.com | .org | .ngo | .guru | .bank | .email | .organic | .photography

IDN gTLD

みんな (каждый) | дети | संगठन (организация) | 世界 (мир) | بازار (рынок) | 삼성 (Samsung) | vermögensberatung (финансовое консультирование) | คอม, (com)

Национальные IDN-домены верхнего уровня

До 2010 года у стран не было возможности представить свои TLD символами не латинского алфавита. ICANN создала ускоренную процедуру ввода национальных IDN-доменов верхнего уровня, чтобы удовлетворить потребность стран в наличии кодов стран и имен национальных TLD на местных алфавитах, отражающих спектр используемых языков.

Первая серия IDN-доменов ccTLD, введенных в корневую зону, была представлена на арабском языке.4 К середине 2015 года ICANN утвердила 47 IDN-доменов ccTLD, охватывающих 15 алфавитов и 24 языка.5 Две трети этих алфавитов относятся к азиатско-тихоокеанскому региону. Самый высокий спрос на IDN-домены ccTLD наблюдался для арабского алфавита (38%), за которым следовала кириллица (14.9%) и хань (14.9%), тамильский язык (6.4%) и бангладешский/ бенгальский (4.3%) — см. рисунок 1, где представлена структура всех заявок на IDN- домены ccTLD. Индия выделяется наибольшим количеством алфавитов (в общей сложности их семь), представляющих название этой страны, что отражает ее национально-лингвистическое многообразие.

Рис. 1. Структура заявок на IDN-домены ccTLD

Запрашиваемый алфавит

Количество заявок

Арабский

18

Кириллица

7

Хань (китайский)

7

Тамильский

3

Бангладешский/бенгальский

2

Армянский

1

Деванагари

1

Грузинский

1

Греческий

1

Гуджарати

1

Гурмукхи

1

Хангыль

1

Сингальский

1

Телугу

1

Тайский

1

Итого

47

IDN-домены общего пользования верхнего уровня

Внедрение IDN-доменов общего пользования верхнего уровня все еще продолжается и требует участия сообществ, использующих один и тот же набор символов, в мировом масштабе. Каждое языковое сообщество, желающее, чтобы его алфавит действительно был представлен в рамках усилий по определению TLD, допустимых в корневой зоне, должно участвовать в работе комиссий по генерированию меток для конкретного алфавита. Это участие может иметь различные формы, такие как создание комиссий, оказание им поддержки помощи, вхождение в состав комиссий или отправка комиссиям предложений и комментариев в периоды проведения корпорацией ICANN общественного обсуждения. Комиссии по генерированию меток функционируют согласно модели сотрудничества с участием многих заинтересованных сторон, которую использует ICANN и другие организации интернета. В интересах эффективности в состав этих комиссий должны входить эксперты в области DNS, Unicode, IDN-доменов, лингвистики, функционирования доменных имен и политики. В тех случаях, когда необходимые знания и навыки отсутствуют, можно обратиться за помощью к ICANN.

Комиссии по генерированию меток отвечают за выработку для конкретного алфавита предложений, определяющих правила генерирования меток (LGR) для корневой зоны. Эти предложения вырабатываются на основе знаний и навыков каждого языкового сообщества, а также требований к использованию конкретного алфавита в метках IDN-доменов TLD. Эта работа помимо прочего охватывает анализ всех символов алфавита и определение того, какие из них могут быть допущены к использованию в метках TLD, какие не могут быть допущены, и какие правила следует применять для идентификации допустимых меток и их вариантов (если таковые имеются). Поскольку комиссии по генерированию меток должны охватить весь набор символов алфавита вместе с их соответствующими элементами кода Unicode, данная работа требует значительных усилий добровольцев из сообществ, использующих один и тот же набор символов.

В настоящее время почти 20 сообществ, использующих один и тот же набор символов, активно занимаются разработкой своих правил генерирования меток для корневой зоны. Спектр алфавитов включает следующие: арабский, армянский, бенгальский, китайский, кириллица, деванагари, гуджарати, гурмукхи, японский, каннада, кхмерский, корейский, латинский, малаялам, ория, тамильский и телугу. Основной объем работы сосредоточен на алфавитах азиатско-тихоокеанского региона. Это не удивительно, учитывая тот факт, что в данном регионе находится почти половина существующих 3 миллиардов пользователей интернета. Ожидается, что к 2020 году к интернету будет подключен следующий миллиард пользователей. Большая их часть также будет из азиатско-тихоокеанского региона. Есть спрос на использование интернета на местных алфавитах и языках. Правительства азиатских стран играют важную роль как инициаторы и координаторы создания комиссий по генерированию меток для конкретных алфавитов. Эти правительства понимают важность доступности интернета и возможности его использования населением с применением местных алфавитов.

Комиссиям по генерированию меток, которые занимаются общими для многих языков алфавитами, потребуется больше времени для завершения своей работы, чем комиссиям, имеющим дело с одним единственным языком. Например, армянской комиссии по генерированию меток потребовалось всего шесть месяцев для подготовки своего предложения по алфавиту, используемому в армянском языке. В то же время, арабской комиссии по генерированию меток потребовалось около 20 месяцев для выполнения своей работы. Больший период времени оказался необходим из-за того, что арабский алфавит используется более чем в 50 языках по всей Африке, Ближнему Востоку и Азии (а именно, в Западной Азии, Южной Азии и Юго-Восточной Азии). Арабская комиссия по генерированию меток стала первопроходцем проекта создания правил генерирования меток для корневой зоны в двух отношениях. Она первой приступила к работе и ее опыт лег в основу методики и типовых приемов, которые использовались для организации работы последующих комиссий по генерированию меток.

К настоящему времени полностью подготовлены предложения арабской и армянской комиссий по генерированию меток, которые ICANN опубликовала для общественного анализа и сбора комментариев — см. вставку 2, где приведены ссылки на форумы общественного обсуждения. Затрагиваемым языковым сообществам настоятельно рекомендуется отреагировать и представить свои отзывы, чтобы гарантировать соответствие набора меток конкретного алфавита для корневой зоны интернета потребностям пользователей данного языка.

Вставка 2. Объявления ICANN о проведении общественного обсуждения предложений относительно LGR комиссий по генерированию меток для конкретного алфавита

Предложение о правилах генерирования меток корневой зоны для арабского алфавита: https://www.icann.org/public-comments/arabic-lgr-proposal-2015-08-24-en.
(Дата закрытия: 16 октября 2015 года)

Предложение о правилах генерирования меток корневой зоны для армянского алфавита: https://www.icann.org/public-comments/proposal-armenian-lgr-2015-07-22-en.
(Дата закрытия: 31 августа 2015 года)

На рисунке 2 представлен обзор всех символов арабского алфавита, которые арабская комиссия по генерированию меток предложила использовать для формирования IDN TLD. Там указано, какие символы предлагается включить или исключить, что будет применяться для всех языков, использующих арабский алфавит.

Рис. 2. Значимые таблицы Unicode с арабскими символами, предложенные арабской комиссией по генерированию меток (GP) для правил генерирования меток корневой зоны (LGR)

Желтый — предложено для LGR корневой зоны арабской GP
Синий — исключено арабской GP
Розовый — исключено из максимального стартового набора (MSR)
Белый — запрещено IETF в соответствии с IDNA2008


Relevant Unicode Tables with Arabic Characters Proposed by the Arabic Generation Panel (GP) for the Root Zone Label Generation Rules (LGR)

На вставке 3 приведен пример локализации арабского алфавита в Юго-Восточной Азии (т. е. для джави). В этом примере указаны символы джави, которые предлагается исключить из IDN TLD.

Вставка 3. Пример для джави

Джави (جاوي) — местное название арабского алфавита, используемого в языках Юго-Восточной Азии. К этим языкам относятся ачехский, банджарский, малайский, минангкабау и таусуг. К странам, использующим джави, относятся Бруней, Индонезия, Малайзия, Сингапур и Таиланд. Варианты джави также можно встретить в других странах этого субрегиона. В свое время джави был преобладающим алфавитом Юго-Восточной Азии. На его использование оказало влияние широкое распространение латинского алфавита. Сегодня джави сохраняет официальный статус в Брунее и Малайзии. Бруней признал джави в качестве одного из двух своих официальных алфавитов, в то время как Малайзия использует его как альтернативный алфавит, главным образом, в религиозных, культурных, научных и административных целях. Удовлетворенная заявка Малайзии на национальный IDN-домен верхнего уровня на арабском алфавите (.مليسيا) свидетельствует об официальном статусе джави в этой стране. Арабская комиссия по генерированию меток приняла во внимание джави и малайский язык при анализе алфавита с целью определения правил генерирования меток корневой зоны. Важнейшая документация, относящаяся к малазийскому алфавиту джави, содержит около 50 значимых символов (и соответствующих элементов кода Unicode) арабского алфавита.6 Почти все эти символы были включены в предложение относительно правил генерирования меток, представленное арабской комиссией по генерированию меток для корневой зоны. Три символа было предложено исключить (см. таблицу ниже).

Таблица символов джави, которые предложено исключить из IDN TLD для арабского алфавита

Символ

Элемент кода Unicode

Наименование и свойства элемента кода

Наименование кодированного символа джави7

[Инициатор исключения] — обоснование

۲

06F2

АРАБСКО-ИНДИЙСКИЙ СИМВОЛ ЦИФРЫ ДВА ИЗ РАСШИРЕННОГО НАБОРА

АРАБСКО-ИНДИЙСКИЙ СИМВОЛ ЦИФРЫ ДВА ИЗ РАСШИРЕННОГО НАБОРА

[IETF]8 — не разрешено использовать цифры в метках TLD.

ڬ

06AC

АРАБСКАЯ БУКВА КАФ С ТОЧКОЙ СВЕРХУ

ГАФ

[Комиссия по интеграции]9 — устаревший символ малайского-джави. Вместо него следует использовать ݢ (U+0762).

ء

НЕТ

НЕТ

АРАБСКИЙ СИМВОЛ ХАМЗА ТРИ ЧЕТВЕРТИ

[Арабская комиссия по генерированию меток] — не имеет кодировки в Unicode и поэтому не подлежит рассмотрению.

Сообществам в Юго-Восточной Азии, использующим алфавит джави и соответствующие языки, настоятельно рекомендуется рассмотреть данное предложение и представить свои отзывы в рамках открытого процесса общественного обсуждения ICANN, которое продлится до 16 октября 2015 года (https://www.icann.org/public-comments/arabic-lgr-proposal-2015-08-24-en).

Технические ограничения лингвистического многообразия в корневой зоне

Результаты работы комиссий по генерированию меток для конкретных алфавитов обнадеживают и приближают мир к реализации стратегической концепции ICANN: «Единый мир, единый интернет». В ICANN широко признается, что IDN-домены расширят рамки использования интернета путем охвата большей части мирового населения, и сообщество ICANN решительно поддержало внедрение IDN-доменов. Это привело к созданию программы IDN, которая обеспечила поддержку ускоренной процедуры ввода национальных IDN-доменов верхнего уровня, позволившей внедрить IDN-домены ccTLD и реализовать проект разработки правил генерирования меток корневой зоны для внедрения IDN TLD общего пользования.

В мире, где больше семи миллиардов людей, больше 7000 живых языков и многочисленные системы письма или алфавиты, интернет, который обслуживает этот мир, должен быть лингвистически многообразным.10 Поскольку корневая зона — это совместно используемое глобальное пространство, добавление TLD ограничивается в соответствии с предложенными Инженерной проектной группой интернета принципами функционирования этой зоны и положениями политики ICANN, нацеленными на обеспечение безопасности и стабильности в корневой зоне. Согласно процедуре, которую ICANN внедрила с целью разработки и поддержания в актуальном состоянии правил генерирования меток для корневой зоны, добавление в корневую зону ограничивается «теми системами письма, к которым есть очевидный интерес».11 Языковым сообществам, которые активно используют интернет и однозначно заинтересованы в том, чтобы их алфавит был включен в корневую зону, настоятельно рекомендуется принять участие в соответствующем процессе разработки правил генерирования меток.

Проблема универсального принятия

Несмотря на все усилия, предпринятые ICANN и ее сообществом заинтересованных сторон, на пути к многоязычному интернету есть одно серьезное препятствие: универсальное принятие. Домены верхнего уровня достигли определенного уровня развития с того времени, как они были представлены миру, и продолжают развиваться по мере дальнейшего расширения корпорацией ICANN программы внедрения новых доменов общего пользования верхнего уровня.12 Некоторые интернет-службы и приложения не поспевают за этим развитием. Это делает TLD непригодными для применения пользователями и по сути блокирует доступ пользователей к веб-сайтам, электронной почте и другим приложениям — см. вставку 4, отображающую связь доменных имен с пользователями интернета.

К проблемам «универсального принятия» относятся невозможность распознавания TLD, написанных на разных алфавитах, службами и приложениями, за исключением кодировки ASCII, непринятие TLD, длина которых превышает три символа, а также отсутствие поддержки внедрения IDN-доменов или имен не в кодировке ASCII в электронной почте. Согласно мнению группы управления по вопросам универсального принятия: «Поставщики программ и услуг поначалу не знали об этих проблемах или имели недостаточно рыночных или нормативных стимулов, чтобы инвестировать средства в разработку решений, способных обеспечить реальную функциональную совместимость платформ или приложений».13

Решение проблемы «универсального принятия» требует от поставщиков интернет-услуг и разработчиков программного обеспечения соблюдения принципа признания, хранения, обработки и отображения всех доменных имен и адресов электронной почты единообразным и эффективным способом. Для поддержки пользователей интернета во всем мире необходима возможность использования TLD в приложениях независимо от алфавита длины или новизны доменов. Если эту проблему «универсального принятия» удастся преодолеть и обеспечить более широкую поддержку контента на местных языках по всему миру, мы сможем создать по-настоящему многоязычный интернет.

Вставка 4. Связь доменных имен с пользователями

Каким образом доменные имена связаны с пользователями интернета?

Ресурсы интернета имеют цифровые адреса. Доменные имена облегчают доступ людей к этим ресурсам, устраняя необходимость запоминать номера. Большинство пользователей без доменных имен не смогло бы получить доступ к интернету и использовать интернет, его службы и приложения. К этим приложениям относятся Всемирная сеть и электронная почта. Имеет смысл упомянуть о том, что адреса электронной почты содержат доменные имена после символа «@». Конечные пользователи интернета обычно используют доменные имена при получении доступа к веб-браузерам, электронной почте и мобильным приложениям. Они также используют доменные имена при создании онлайн учетных записей для использования услуг в интернете. Большинство конечных пользователей использует доменные имена для получения доступа к контенту, опубликованному другими. Некоторые из них также регистрируют доменное имя, чтобы публиковать свою собственную информацию на веб-сайтах.

 

Риналия Абдул Рахим (Rinalia Abdul Rahim) — член арабской комиссии по генерированию меток, разработавшей правила генерирования меток для корневой зоны, и член оперативной рабочей группы по арабским IDN-доменам. Ранее она занимала должность сопредседателя рабочей группы At-Large по IDN, которая занималась решением вопросов IDN, представляющих интерес для индивидуальных пользователей интернета во всем мире. Она также является членом Правления ICANN и рабочей группы Правления ICANN по IDN и вариантам.


1 ASCII — американский стандартный код для обмена информацией.

2 http://www.iso.org/iso/countrycodes/countrycodes

3 Первоначальный набор символов ASCII, которые было разрешено использовать в доменных именах, содержал буквы a-z, цифры и дефис. Для доменных имен верхнего уровня введено особое ограничение: они могут содержать только буквы, но не цифры или дефис.

4 https://www.icann.org/news/announcement-2010-05-05-en

5 https://www.icann.org/resources/pages/string-evaluation-completion-2014-02-19-en.

6 Dewan Bahasa dan Pustaka, Daftar Kata Bahasa Melayu-Rumi-Sebutan Jawi (2001 год); MYNIC/регистратура домена .MY, таблица языка джави, представлен-ная в репозиторий IANA (2009 год); MYNIC/регистратура домена .MY, отчет по интернационализированному доменному имени Малайзии: проблемы языка джави, версия 1.0 (2009 год); стандарты Малайзии, малазийский ИТ-стандарт — набор кодированных символов джави для информационного обмена (2012 год).

7 Стандарты Малайзии, малазийский ИТ-стандарт — набор кодированных символов джави для информационного обмена (2012 год).

8 Инженерная проектная группа интернета (IETF): RFC1123 и RFC6912

9 Комиссия по интеграции LGR корневой зоны, MSR-1-Annotated-non-CJK-Tables-20140606 стр. 32–38 (https://www.icann.org/en/system/files/files/msr-non-cjk-06jun14-en.pdf [PDF, 1,86 МБ]).

10 https://www.ethnologue.com/enterprise-faq/how-many-languages-world-are-unwritten

11 https://www.icann.org/en/system/files/files/draft-lgr-procedure-20mar13-en.pdf [PDF, 1,39 МБ]

12 См. http://newgtlds.icann.org/en/program-status/delegated-strings, где представлен обновляемый список TLD общего пользования, находящихся в процессе делегирования в корневую зону.

13 https://www.icann.org/resources/pages/universal-acceptance-2012-02-25-en

Rinalia Abdul Rahim