ICANN 博文

敬请阅读 ICANN 的博文,了解最新政策制定活动和区域事务等等。

ICANN 社群如何协助构建一个囊括更多语言的互联网

2022 年 03 月 22 日
作者:

ICANN 的使命在于确保全球互联网的稳定、安全与统一。但为一个全球性互联网提供支持究竟需要哪些内容呢?世界上大多数人的第一语言并不是英语,也不是只用字母"a"到"z"书写自己的语言。事实上,只有略多于三分之一的世界人口使用拉丁文字符,而使用字母"a"到"z"的人口数量则更少。

为了方便全球多样的用户使用互联网和域名系统 (Domain Name System, DNS),本社群多年来一直致力于引进国际化域名 (Internationalized Domain Names, IDN)。IDN 使世界各地的人们能够使用由当地语言和文字构成的域名,例如:阿拉伯文、中文、西里尔文、梵文、泰国语等等。

启用一个完整的 IDN,包括顶级域名 (top-level domain, TLD) 标签,是一个复杂而耗时的流程,ICANN 则会帮助协调这个流程。该流程的一部分是开发一套统一且透明的机制,从而确定有效的 IDN 顶级域标签及其在全球社群使用的不同文字中的变体标签。在过去的八年中,各种语言文字社群都成立了生成专家组 (Generation Panels, GP)。这类专家组由 DNS 和语言和文字专家组成,他们共同编制必要规则,采用稳妥和安全的方式使用各自文字构成顶级域。这些规则是通过根区标签生成规则 (Root Zone Label Generation Rules, RZ-LGR) 程序而编制的,目前社群正在考虑将该程序作为验证下一轮新通用顶级域 (generic top-level domains, gTLD) 和国家和地区顶级域 (country code top-level domains, ccTLD) 的机制,并定义各种文字的变体标签。

本周晚些时候,第五版《根区标签生成规则》(RZ-LGR-5) 将公开征求公众意见,该版本整合了总共 26 种文字。这些文字被用来书写世界各地的数百种语言。这是一项卓著的成就,也是多利益相关方模型发挥作用的切实证明。ICANN 组织对支持语言文字社群的这些工作倍感自豪,因为 RZ-LGR 是一个重要的工具,可用于使人们更广泛地访问全球多语言的互联网。

RZ-LGR-5 将囊括现有活跃的 GP 的所有工作,在这个版本即将发布之际,我想花点时间表彰他们做出的无私奉献,并庆祝他们取得的卓越成就。自 2014 年第一个 GP 成立以来,该社群已经:

  • 创建了 17 个涵盖 26 种文字的 GP 专家组
  • 吸引了 270 多名语言文字社群志愿者的参与
  • 志愿者们共工作了 10,000 多小时
  • (截至目前)LGR 提案所涵盖并定稿的 26 种独特文字包括:阿拉伯文、亚美尼亚语、孟加拉文、中文(汉字)、西里尔文、梵文、埃塞俄比亚语、格鲁吉亚文、希腊文、古吉拉特文、果鲁穆奇文、希伯来文、日语(平假名、片假名、日文汉字[汉字])、埃纳德文、高棉语、韩文(朝鲜文和韩文汉字[汉字])、老挝语、拉丁文、马来亚拉姆文、缅甸文、奥里雅语、僧伽罗文、泰米尔文、泰卢固文和泰国语。

GP 轶事:

  • 每个 GP 通常由 7 至 15 名志愿成员组成,但根据 GP 的组织方式,成员人数可以更多。
  • 最大的 GP 是新婆罗米文生成专家组。该专家组有来自孟加拉、印度、尼泊尔、斯里兰卡和新加坡的 66 名成员构成,涵盖了 9 种文字。
  • 首个 GP,即阿拉伯文 GP,成立于 2014 年。
  • GP 工作支持的语言总数:386 种以上
  • GP 成员代表的国家总数:44 个
  • 迄今为止,为编制 RZ-LGR 而进行的 ICANN 公共评议期的数量:30 次以上

ICANN 组织将继续支持其他语言文字社群在 RZ-LGR 程序的基础上组建 GP。

GP 究竟要做哪些工作,他们的工作为何如此重要?请查看下文了解详情。

GP 的工作有哪些?

在 IDN 中启用不同文字有什么复杂之处?由于世界各地使用的文字和书写系统的性质不同,一些文字需要语境规则来形成一个不会造成问题的标签。有时候,语言文字用户可能认为是相同的字符,但实际上却是不同字符时,则可能造成终端用户的混淆,这种情况被称为变体(例如,"a"——拉丁文的小写字母 A(U+0061) 和"а"——西里尔文的小写字母 A(U+0430))的情况。在某些文字中,需要有变体标签来促进 IDN 的可用性,例如:简体中文和繁体中文中需要具有可分配性。

GP 的任务是制定关于字汇、变体码点和标签形成的一套规则。GP 是由志愿者组成的,包括对当地文化、习俗和惯例有深刻了解的语言文字社群代表和语言学专家们。他们还囊括了熟悉注册管理机构和注册服务机构运作的人员,以及政策和 DNS 专家们。每个 GP 的主要目标是:

  • 列出用于特定文字的域名的字符短清单。
  • 确定需要被视为"相同"或变体的码点,以减少终端用户的混淆并支持可用性。
  • 定义特定文字的规则,以避免产生安全问题。

以下是一个 GP 应对安全问题的范例:

案例 码点 字体*
1 U+0067 U+0303 U+0303 g̃
2 U+0067 U+0303 g̃

*如 Chrome 浏览器地址栏所示。MAC 电脑 Chrome 版本 97.0.4692.71 (官方版)(x86_64)

在这个例子中,案例 1 和案例 2 的码点序列不同,但它们的视觉效果是一样的。案例 1 有一个双组合的波形符号 (U+0303 U+0303),而案例 2 只有一个 (U+0303)。而处理这个问题的拉丁文 RZ-LGR 提案并不包括 U+0303 作为一个单一码位,因此,由于这种潜在安全问题,案例 1 是不成立的。

这项工作需要花费多长时间?

GP 可能需要长达数年的时间来最终确定一套文字提案。文字提案一旦编写完成,则将启动公共评议期,然后则由语言学、Unicode、DNS 和 IDN 方面的专家组成的整合专家组进行审议。在审议之后,整合专家组会将文字提案逐步整合到 RZ-LGR 之中。更新后的 RZ-LGR 将再次发布,以征求公众意见,并在最终出版前验证整合过程。

为什么这项工作很重要?

DNS,尤其是根区,是一种共享的全球资源。为了建立一个更加包容和安全的多语言互联网,即为全世界人民服务的互联网,我们需要以谨慎保守的态度推进互联网对文字的支持,和最终对 IDN 的支持。如果没有过去八年来所有 GP 和整合专家组成员的综合知识和无私奉献,多语言互联网就不可能成为现实。各 GP 为正确使用文字奠定了基础,平衡了不同文字的域名的可用性和安全性。

我谨代表 ICANN 组织再次感谢世界各地参与 GP 的所有社群成员和参与者们在这项努力中给予的帮助。

Authors

Sarmad Hussain

Sarmad Hussain

Senior Director IDN and UA Programs