ICANN 博文

敬请阅读 ICANN 的博文,了解最新政策制定活动和区域事务等等。

庆祝促成多语言顶级域过程中由社群推动取得的重要里程碑

2016 年 03 月 2 日
作者:

本部分内容不仅提供联合国六种官方语言版本,还提供以下语言版本

null

2016 年 3 月 2 日, 根区标签生成规则第 1 版 (LGR-1) 发布。LGR-1 支持阿拉伯文,后续版本还将支持其他文字。这一成就在 2015 年 11 月阿拉伯文字社群和亚美尼亚文字社群提交根区 LGR 提案后取得。

第 1 版根区标签生成规则的制定是朝着多语言互联网迈进的重要一步。这些规则为确定全球各种文字和书写系统中顶级域 (TLD) 名称或标签的有效性和变体提供了一种开放、透明的方法。LGR-1 是基于社群的阿拉伯文字生成专家组、整合专家组以及许多其他编著者辛勤工作最终获得的成果。这项工作的完成将便于网页导航,并有助于通过域名系统(尤其是顶级域)处理混淆和安全问题,可惠及当前和未来使用阿拉伯文字的用户。

祝贺为迈出具有重大意义的第一步付出努力的所有人员!

LGR-1 制定流程:阿拉伯文字生成专家组

基于社群的阿拉伯文国际化域名任务组 (TF-AIDN) 于 2013 年下半年开始组建,并于 2014 年 2 月作为阿拉伯文字生成专家组正式开始工作。阿拉伯文是难以辨认的复杂文字之一,因为阿拉伯文由亚洲和非洲几种不同的语言群体使用,导致其字母的形状出现很多变体,而且文字出现不同的用法。对于不熟悉阿拉伯文广泛使用范围的初级用户(甚至在阿拉伯文字社群内)而言,字母的细微变化看起来不明显,会造成标签混淆。例如,阿拉伯文用户可能将 کتاب(kitab,"书")与 ڪتاب 混淆,后者被视为语体变异。这些变体增加了文字的内在复杂性,而文字本身已包含上下文相关的连写字母和很多组合字符,以指示辅音和元音内容。

由于阿拉伯文的使用在地域和语言上具有如此大的多样性,阿拉伯文字生成专家组初始成员面临的第一个挑战便是招募各领域(包括语言学、技术、政策和终端用户社群)的代表专家。该专家组与 ICANN 全球利益相关方合作团队一起招募了 33 位代表 21 个国家/地区的成员 — 他们就是使用阿拉伯文字的各类用户。

接下来需要完成历时 18 个月的制定流程,涉及到上千封电子邮件、大量网络会议、多次热烈的讨论会、一些语言学方面的艰难妥协以及很多艰辛的工作。在制定第 1 版 LGR 的过程中,阿拉伯文字生成专家组完成了三项关键任务:

  1. 分析 Unicode 码点并收录。

    专家组的第一项任务是必须确定生成标签时应允许使用哪些码点。整合专家组准备了一份简短的列表作为基础,其中包括 200 多个码点。这项工作涉及到查找并记录码点源,以验证各码点是否用于现代惯用语言中,若否,则排除该码点。这是一项艰难的任务,对于未记录文字使用的社群(由于其国家正式使用的是其他文字,例如西里尔文或拉丁文)而言更是如此。这种情况曾出现在亚洲和非洲。

  2. 定义码点变体。

    要确定阿拉伯文中的变体难度很大,因为语言文字社群可使用多种方式判定两个码点相等,包括同形字、语体变异以及添加和调整句点和其他标点。此外,某些变体语义上相关,但在形式上不相关,这是受文化环境和语音因素的影响。尽管在定义变体以处理终端用户混淆问题方面比较自由,但阿拉伯文字生成专家组必须尽量减少这些变体码点因根区的守旧性而生成的"可分配的"变体标签。这是一个真正的挑战,因为这意味着不同社群必须在其语言表达方面做出妥协。

  3. 确定仅允许有效标签存在的完整标签评估规则。

    创建标签生成规则时面临着一个新的挑战。如何为文字级标签验证定义语言规则并不明确。拼写规则和其他标准一般是基于语言而非文字,可能不适用于域名标签,因为标签不限于语言中的实字。阿拉伯文字生成专家组将标签的可用性定为限制标准,以应对这一挑战。例如,对于使用阿拉伯文时需在键盘不同语言之间切换的标签,专家组制定了使标签无效的规则。

接下来呢?现在可以确定阿拉伯文顶级域的可分配变体了。社群必须就如何实施和授权这些 TLD 达成一致意见。这项工作正在进行中,ICANN 很快将征询社群对用于管理变体 TLD 的机制的意见。

标签生成规则工作继续

其他文字和书写系统的社群志愿者正在努力工作,以完成各自文字的 LGR 提案。以下是简短总结:

  • 亚美尼亚文字生成专家组也创纪录地在 6 个月内完成了工作,并于 2015 年 11 月提交了提案。但是,由于与西里尔文、希腊文和拉丁文之间存在同形字变体,整合专家组推迟了整合流程,另一个生成专家组的工作将有助于更好地理解这些联系的影响。
  • 中文、日文和韩文社群使用混合文字书写其语言。生成专家组正分别分析这些语言,也在协调工作,以确保生成一份通用解决方案以整合以上语言均包含的汉字。
  • 高棉文、老挝文和泰文社群取得了很大进展。高棉文和老挝文生成专家组正与整合专家组进行严谨的磋商,以最终确定复杂的基于文字的完整标签评估规则。该规则适用于从复杂的婆罗米文书写系统衍生的所有文字。
  • 西里尔文、希腊文和拉丁文社群的分析工作进展阶段各不相同。这些社群完成内部工作后,将开始相互合作,以最终确定这三种文字之间以及与亚美尼亚文字之间的跨文字变体。
  • 埃塞俄比亚文和新婆罗米文生成专家组已组建。这两个社群已开始工作并在了解流程要求。新婆罗米文生成专家组在同时处理该地区九种不同的文字,这是一个复杂的任务。
  • ICANN 工作人员正在联系格鲁吉亚文、希伯来文、僧伽罗文和塔安那文社群,鼓励其组织工作并开始制定各自的 LGR 提案。

生成专家组的根区 LGR 工作状态(2016 年 3 月)

Bar graph showing status of work on Root Zone LGR by the Generation Panels (in March 2016)

随着这些语言文字社群先后对提案定稿,这些文字将不断整合至后续 LGR 版本中,使相关社群可确定这些文字中标签的有效性和变体。

我对目前的工作进展非常满意,并期待看到更多 LGR 提案完成。非常感谢所有志愿者理解这项工作的重要性并为了实现多语言互联网而辛勤工作。

如需了解有关标签生成规则的更多信息,请阅读有关根区 LGR 的早期博客 – 根区 LGR 介绍, 所需的合作面临的挑战。如需了解有关 ICANN IDN 项目工作的更多信息,请访问 icann.org/idn 或发送电子邮件至 IDNProgram@icann.org

Authors

Sarmad Hussain

Sarmad Hussain

Senior Director IDN and UA Programs