ru

Как сообщество ICANN проложило путь к более многоязычному интернету

22 марта 2022
Автор Sarmad HussainSarmad Hussain

Миссия ICANN – обеспечение стабильного, безопасного и единого глобального интернета. Но что конкретно необходимо для поддержки глобального интернета? У большинства английский язык не родной, и на письме они используют не только буквы от а до z. Напротив, только немногим более трети населения мира использует латиницу и еще меньше людей ограничивается буквами от а до z.

В попытках сделать систему доменных имен (DNS) более доступной разнообразным и глобальным пользователям, сообщество уже много лет работает над вводом интернационализированных доменных имен (IDN-доменов). IDN-домены позволяют людям во всем мире использовать доменные имена и наборы символов на местных языках, например, на арабском, китайском, кириллице, деванагари, тайском и многих других.

Процесс подключения полного IDN-домена, включая метки доменов верхнего уровня (TLD), сложный и длинный, и ICANN оказывает здесь содействие. Часть процесса состоит в подготовке последовательного и прозрачного механизма, позволяющего определить приемлемые метки IDN-доменов и их варианты для разных наборов символов, использующихся сообществами во всем мире. Последние восемь лет многие сообщества, использующие один и тот же набор символов, создавали так называемые Комиссии по выработке правил (GP). В них входят эксперты по DNS, языкам и наборам символов, которые вместе работают над выработкой правил, необходимых для последовательного и безопасного способа формирования TLD с использованием их наборов символов. Эти правила вырабатываются согласно процедуре правил генерирования меток корневой зоны (RZ-LGR), которую сообщество сегодня считает механизмом валидации новых доменов общего пользования (gTLD) и национальных доменов верхнего уровня в следующем раунде (ccTLD) и определения их вариантов меток.

В конце этой недели будет опубликована для общественного обсуждения пятая версия правил генерирования меток корневой зоны (RZ-LGR-5), в которую войдет всего 26 наборов символов. Эти наборы символов используются в системах письма сотен языков мира. Это потрясающее достижение и настоящее свидетельство мультистейкхолдерной модели в действии. Корпорация ICANN гордится возможностью поддержать сообщества, использующих один и тот же набор символов в этом деле, так как RZ-LGR — это важный инструмент, использующийся для расширения доступа к глобальному и многоязычному интернету.

Мы готовимся к публикации RZ-LGR-5, в которую должны войти результаты всего объема работы активных GP, в связи с чем я бы хотел признать и отметить приверженность делу и достижения этих комиссий. С момента формирования первой GP в 2014 году, сообщество:

  • Создало 17 Комиссий по выработке правил, которые работали над 26 наборами символов
  • Привлекло более 270 волонтеров из состава сообществ, использующих одни и те же наборы символов
  • Волонтеры посвятили этой работе более 10 000 часов
  • Завершило подготовку 26 уникальных наборов символов, описанных в предложениях LGR. На сегодня это: арабский, армянский, бангла, китайский (хань), деванагари, эфиопский, грузинский, греческий, гуджарати, гурмукхи, иврит, японский (хирагана, катакана и канжи (хань) каннада, кхмерский, корейский (хангыль и ханжа [хань]), лаосский, латиница, малаялам, мьянма, ория, сингальский, тамильский, телугу и тайский.

Любопытные факты о GP:

  • В каждую GP входит по 7–15 волонтеров, но членов в GP может быть и гораздо больше, в зависимости от принципа организации GP.
  • Самая большая GP — это Комиссия по выработке правил для набора символов нео-брахми, в которую входит 66 человек из Бангладеша, Индии, Непала, Шри-Ланки и Сингапура; комиссия занимается 9 наборами символов.
  • Первая GP, Комиссия по выработке правил для набора символов арабской вязи, была создана в 2014 году.
  • Общее количество языков, над которыми работают GP: более 386
  • Общее количество стран, представленных в GP: 44
  • Количество общественных обсуждений ICANN, посвященных разработке RZ-LGR на сегодня: более 30

Корпорация ICANN будет продолжать поддерживать другие сообщества, использующие один и тот же набор символов сообщества, которые решат сформировать GP по процедуре RZ-LGR.

Так что же делают GP и в чем важность их работы? Подробности ниже.

Чем занимаются Комиссии по выработке правил?

Почему так трудно обеспечить работу разных наборов символов в IDN-доменах? В связи с особенностями, присущими разным наборам символов и системам письма, использующимся в мире, для некоторых наборов необходимы контекстные правила для формирования меток во избежание проблем с отображением. Также конечные пользователи могут перепутать символы, которые могут показаться одинаковыми, но которые на самом деле являются разными. Такие символы называются термином «вариант» (например, «а» — строчная версия буквы А на латинице (U+0061), а «а» — строчная версия буквы А на кириллице (U+0430)). В некоторых наборах символов метки вариантов необходимы для продвижения использования IDN-доменов, например, это касается упрощенного китайского и традиционного китайского, так как необходимо создать возможность присваивать метки вариантов.

GP поручено разработать правила относительно стартового набора, кодовых точек вариантов и создания меток. GP состоят из волонтеров — представителей сообществ, использующих один и тот же набор символов и хорошо разбирающихся в местной культуре, традициях и практиках, а также экспертов по лингвистике. В них также входят люди, знакомые с работой регистратур и регистраторов, и эксперты по формированию политик и DNS. Ниже перечислены основные цели всех GP:

  • Подготовить короткий перечень символов, которые можно использовать в доменных именах для того или иного конкретного набора символов.
  • Определить кодовые точки, которые необходимо считать «одинаковыми» или «вариантами», чтобы у пользователей не возникало неправильного толкования и чтобы поддержать удобство в использовании.
  • Определить правила, связанные с конкретными наборами символов, чтобы предотвратить проблемы с безопасностью.

Вот пример проблемы с безопасностью, которую разрешила GP:

Ситуация Кодовые точки Глиф*
1 U+0067 U+0303 U+0303 g̃
2 U+0067 U+0303 g̃

*Отображение в адресной строке браузера Chrome. Версия Chrome 97.0.4692.71 (официальная) (x86_64) для MAC.

В этом примере в Ситуациях 1 и 2 кодовые точки используются в разной последовательности, но визуально они отображаются одинаково. В Ситуации 1 используется двойная тильда (double combining tilde, U+0303 U+0303), а в Ситуации 2 всего одна (U+0303). В проекте правил RZ-LGR для латиницы эта проблема была разрешена путем исключения U+0303 как единой кодовой точки, то есть Ситуация 1 не может возникнуть, так как это может привести к проблеме с безопасностью.

Сколько времени занимает эта работа?

На подготовку окончательного предложения у GP может уйти несколько лет. Готовое предложение выносится на общественное обсуждение, а затем рассматривается Комиссией по интеграции правил, в которую входят эксперты по лингвистике, Юникоду, DNS и IDN-доменам. После этого Комиссия по интеграции правил вносит сделанные предложения в правила RZ-LGR. Уточненная версия правил RZ-LGR опять выносится на общественное обсуждение, чтобы выверить процесс интеграции перед окончательной публикацией.

В чем важность этой работы?

DNS и, в частности, корневая зона — общий глобальный ресурс. Для того, чтобы создать инклюзивный и безопасный многоязычный интернет, который могут использовать люди во всем мире, поддержка наборов символов и в итоге — IDN-доменов, должна обеспечиваться последовательным и консервативным образом. Без общего понимания и преданности делу членов GP и Комиссий по интеграции правил, проявленных ими за последние 8 лет, многоязычный интернет был бы невозможен. GP заложили основу для надлежащего использования наборов символов, который совмещает удобство в использовании с безопасностью доменных имен при применении разных наборов символов.

От имени корпорации ICANN я хочу еще раз поблагодарить всех членов сообщества и участников, работающих в составе GP со всего мира, которые помогали в этой работе.

Authors

Sarmad Hussain

Sarmad Hussain

Sr Director IDN & UA Programs
Read biographyRead biography