Блоги ICANN

Читайте блоги ICANN, чтобы получать новости о деятельности в области формирования политики, региональных мероприятиях и других событиях.

Празднование завершения важного этапа работы сообщества по обеспечению возможности использования многоязычных доменов верхнего уровня

2 марта 2016
Автор

В дополнение к языкам, использующимся в ООН, этот материал также доступен на

null

2 марта 2016 года появилась первая версия правил генерирования меток корневой зоны (LGR-1). LGR-1 поддерживает арабскую вязь, а последующие версии обеспечат поддержку новых алфавитов. Это достижение явилось следствием предложений по LGR корневой зоны, которые были представлены сообществами, использующими наборы символов арабского и армянского алфавитов, в ноябре 2015 года.

Введение первых правил генерирования меток корневой зоны представляет собой существенный шаг в развитии многоязычного интернета. Эти правила обеспечивают наличие открытого и прозрачного способа определения допустимости и вариантов доменных имен верхнего уровня (TLD), или меток, для которых используются алфавиты и системы письменности разных стран мира. LGR-1 — результат упорного труда Комиссии сообщества по генерированию меток, записанных арабской вязью, Комиссии по интеграции и других лиц, которые внесли свой вклад. Эта работа принесет пользу нынешним и будущим пользователям интернета, использующим арабский алфавит, упростив навигацию по всемирной сети, и поможет устранить неопределенность и проблемы безопасности, возникающие при использовании системы доменных имен, в частности доменов верхнего уровня.

Я хотел бы поздравить всех, кто поспособствовал успешному завершению этого монументального первого этапа!

Путь к LGR-1: Комиссия по генерированию меток, записанных арабской вязью

Оперативная рабочая группа сообщества по интернационализированным доменным именам, записанным арабской вязью (TF-AIDN), начала формироваться во второй половине 2013 года и официально приступила к работе как Комиссия по генерированию меток, записанных арабской вязью, в феврале 2014 года. Арабский — один из наиболее сложных для изучения алфавитов, поскольку используется в нескольких разных языках Азии и Африки, что приводит к большому многообразию формы букв и применения алфавита. Незначительно отличающиеся буквы кажутся одинаковыми неподготовленным пользователям — даже в самом сообществе, использующем арабскую вязь, — которые не знакомы с широтой применения арабского алфавита, что приводит к путанице в использовании меток. Например, пользователи, применяющие арабскую вязь, могут спутать слово کتاب (kitab, «книга») со словом ڪتاب, которое интерпретируется как стилистическая разновидность. Эти варианты увеличивают сложность, присущую алфавиту, который уже и так содержит зависящие от контекста курсивные формы букв и множество комбинаций диакритических знаков, указывающих на согласные и гласные.

Поскольку арабская вязь имеет такое широкое географическое распространение, трудностью, с которой первые члены Комиссии по генерированию меток, записанных арабской вязью, столкнулись в самом начале работы, стало привлечение авторитетных экспертов из множества областей знаний, в том числе лингвистов, технических специалистов, лиц, занимающихся разработкой политики, и представителей сообщества конечных пользователей. Этой группой в сотрудничестве с отделом глобального взаимодействия с заинтересованными сторонами ICANN были привлечены 33 члена, представляющие 21 страну, — впечатляющее многообразие пользователей, применяющих арабскую вязь!

Затем последовал восемнадцатимесячный процесс разработки, в течение которого были отправлены тысячи электронных писем, проведены многочисленные интернет-совещания, большое количество оживленных дискуссий, достигнуты некоторые нелегкие лингвистические компромиссы и выполнено много тяжелой работы. На пути к созданию первых LGR Комиссия по генерированию меток, записанных арабской вязью, выполнила три важнейших задачи:

  1. Анализ подлежащих включению элементов Unicode.

    Сначала группе пришлось решить задачу определения того, какие элементы кода следует разрешить использовать при формировании меток. В качестве отправной точки Комиссии по интеграции подготовила краткий список, который тем не менее содержал более 200 элементов кода. Данная деятельность охватывала поиск и документирование для каждого элемента кода источников, подтверждающих его активное использование в современном языке. В противном случае, этот элемент кода исключался. Это было трудной задачей, особенно в случаях, когда использующие алфавит сообщества не имели документов по той причине, что в их странах государственными являются другие алфавиты, например, кириллица или латиница. Подобные ситуации возникали и в Азии, и в Африке.

  2. Определение вариантов элементов кода.

    Было сложно определить, что является вариантом для арабской вязи, поскольку сообщество, использующее один и тот же набор символов, могло счесть два элемента кода эквивалентными во многих случаях, включая близкие по начертанию глифы, стилистические варианты, а также расположение и ориентацию точек и других диакритических знаков. Кроме того, некоторые варианты связаны семантически, но имеют графически несвязанные формы, что обусловлено культурными особенностями и фонологическим соображениями. Несмотря на либеральность в определении вариантов, чтобы избежать путаницы для конечных пользователей, Комиссии по генерированию меток, записанных арабской вязью, также пришлось минимизировать количество «допустимых для выделения» вариантов этих элементов кода из-за консервативного характера корневой зоны. Это было действительно трудной задачей, поскольку означало для различных сообществ необходимость достижения компромисса в отношении своих лингвистических правил.

  3. Определение правил оценки меток целиком, позволяющих выделить только допустимые метки.

    При создании правил генерирования меток возникла новая трудность. Не было ясности в том, как сформулировать лингвистические правила для проверки использования алфавита на уровне метки. В основе орфографических правил и других критериев, как правило, лежат языки, а не алфавиты, и эти правила нельзя применить к меткам доменов, так как последние не ограничены реальными словами конкретного языка. Комиссия по генерированию меток, записанных арабской вязью, справилась с этой трудностью, определив пригодность меток для применения в виде совокупности ограничивающих критериев. Например, она сформулировала правила, согласно которым недействительными считаются те метки, для написания которых арабской вязью необходимо переключать раскладку клавиатуры, меняя язык.

Что дальше? Теперь можно определить допустимые для выделения варианты доменов верхнего уровня, записанных арабской вязью. Сообщество должно согласовать процедуру реализации и делегирования таких TLD. Эта работа выполняется в настоящее время, и скоро ICANN предложит сообществу внести вклад в разработку механизмов, которые будут использоваться для организации работы с вариантными доменами верхнего уровня.

Разработка правил генерирования меток продолжается

Добровольцы из сообществ, использующих другие алфавиты и системы письменности, старательно работают над составлением предложений по LGR для своих алфавитов. Ниже приведено краткое описание этой работы.

  • Комиссия по генерированию меток, записанных символами армянского алфавита, также завершила работу и представила свое предложение в ноябре 2015 года, подготовив его за рекордные шесть месяцев. Однако из-за вариантов глифов, совпадающих по начертанию с буквами кириллического, греческого и латинского алфавитов, Комиссия по интеграции отложила процесс интеграции — работа других комиссий по генерированию меток поможет лучше понять последствия этих взаимосвязей.
  • Сообщества, использующие китайский, японский и корейский наборы символов, применяют в своих языках смесь алфавитов. Комиссии по генерированию меток анализируют эти языки по-отдельности, а также координируют свои усилия, чтобы найти общее решение по интеграции общего для всех трех языков набора иероглифов хань.
  • Сообщества, использующие кхмерский, лаосский и тайский наборы символов, добились серьезных успехов. Комиссии по генерированию меток, записанных символами кхмерского и лаосского алфавитов, ведут напряженную дискуссию с Комиссией по интеграции, чтобы завершить подготовку комплексных правил оценки меток на основе алфавита. Это общая особенность алфавитов, созданных на основе сложной системы письменности брахми.
  • Сообщества, использующие кириллицу, греческий и латинский алфавиты, находятся на разных этапах анализа. Сразу после завершения своей внутренней работы они начнут процесс координации, чтобы совместно окончательно определить варианты для всех алфавитов, включая армянский.
  • Сформированы Комиссии по генерированию меток, записанных символами эфиопского алфавита и нео-брахми. Эти сообщества приступили к работе и изучают технологические требования. Перед Комиссией по генерированию меток, записанных символами нео-брахми, стоит сложная задача, поскольку она одновременно работает над девятью различными алфавитами региона.
  • Персонал ICANN обратился к сообществам, использующим наборы символов иврита, тана, грузинского и сингальского алфавитов. чтобы побудить их начать работу над соответствующими предложениями по LGR.

Состояние работы Комиссий по генерированию меток над LGR корневой зоны (март 2016 года)

Bar graph showing status of work on Root Zone LGR by the Generation Panels (in March 2016)

По мере окончательного оформления указанными сообществами своих предложений, эти предложения будут постепенно включаться в последующие выпуски LGR, позволяя соответствующим сообществам определять допустимость меток и их вариантов для этих алфавитов.

Я воодушевлен достигнутыми к настоящему моменту успехами и с нетерпением жду завершения работы над новыми предложениями по LGR. Я выражаю особую благодарность всем добровольцам, которые понимают важность этого дела и упорно потрудились над тем, чтобы многоязычный интернет стал реальностью.

Дополнительные сведения о правилах генерирования меток представлены в опубликованных ранее статьях блога на тему LGR корневой зоны: Знакомство с LGR корневой зоны, необходимость сотрудничества и стоящие задачи. Дополнительные сведения о работе программы ICANN по IDN-доменам можно получить на сайте icann.org/idn или по электронной почте IDNProgram@icann.org.

Authors

Sarmad Hussain

Sarmad Hussain

Senior Director IDN and UA Programs