zh

互联网根中的语言多样性以阿拉伯文字和爪夷文为例

2015 年 09 月 8 日

Rinalia Abdul Rahim

本部分内容不仅提供联合国六种官方语言版本,还提供以下语言版本

展示互联网根中的多种语言和文字

互联网名称与数字地址分配机构 (ICANN) 负责管理全球互联网的根区。根区包含所有顶级域名 (TLD) 的授权列表和记录。互联网自诞生伊始,根区中仅允许基于拉丁文字的 TLD 子集。这是因为域名系统 (DNS) 的起源和传统设计的缘故。DNS 最初是为了处理 ASCII 格式中的拉丁文字而设计的。1 2010 年实施的一项技术解决方案成功地在顶级 DNS 中引入多种文字和语言的域名,而且不会造成互联网不稳定。

存在四种与互联网用户有关的 TLD:国家和地区顶级域名 (ccTLD)、通用顶级域名 (gTLD)、国际化域名国家和地区顶级域名 (IDN ccTLD) 以及通用国际化域名顶级域名 (IDN gTLD)。归属于国家和地区代码的 TLD 表示由国际标准 ISO3166-1 所确定的国家和地区的官方名称。2 通用 TLD 属于与国家和地区的官方名称关联的名称以外的名称或名称表示。国际化域名 (IDN) 表示突破原始 ASCII 字符集的用多种文字和语言表示的域名。3 请参阅表 1 以了解按类别划分的顶级域名示例。

表 1 - 域名标签和按类别划分的顶级域名示例

什么是域名标签?

域名是根据域名系统 (DNS) 中从低到高的标签层次结构来排列的。示例:en.wikipedia.org。此处的"org"是位于最高级或顶级的域名标签,"wikipedia"是二级域名标签,"en"是三级(最低级)的域名标签。

按类别划分的顶级域名 (TLD) 示例

ccTLD

.de (德国) | .et (爱沙尼亚) | .my (马来西亚) | .pr (波多黎各)

IDN ccTLD

مصر (埃及) | 中国 (中国) | भारत (印度) | ไทย (泰国)

gTLD

.com | .org | .ngo | .guru | .bank | .email | .organic | .photography

IDN gTLD

みんな (所有人) | дети (儿童) | संगठन (组织) | 世界 (世界) | بازار (集市) | 삼성 (三星) | vermögensberatung (财务咨询) | คอม, (com)

IDN 国家和地区代码顶级域名

直至 2010 年,各国家或地区才能使用除拉丁文以外的其他文字来表示其国家和地区 TLD。ICANN 确立了 IDN ccTLD 快速通道流程,以便各国家或地区使用反映其语言基础的当地文字来表示其国家和地区代码以及国家和地区名称 TLD。

插入根区的第一组 IDN ccTLD 采用的是阿拉伯文。4 截至 2015 年中期,ICANN 已核准了 47 种 IDN ccTLD,涵盖 15 种文字和 24 种语言。5 其中三分之二的文字与亚太地区有关。针对 IDN ccTLD 需求最高的是阿拉伯文字 (38%),紧随其后的是西里尔文 (14.9%) 和汉语 (14.9%)、泰米尔文 (6.4%) 以及孟加拉文 (4.3%) - 请参阅图 1 以获取所有 IDN ccTLD 申请的细分。印度所使用的表示其国家或地区名称的文字数量最多(总计七种),这反映了其国家语言学的多样性。

图 1 - IDN ccTLD 申请细分

申请的文字

申请数量

阿拉伯文

18

西里尔文

7

汉语(中文)

7

泰米尔文

3

孟加拉文

2

亚美尼亚语

1

梵文

1

格鲁吉亚文

1

希腊文

1

古吉拉特文

1

果鲁穆奇文

1

朝鲜文

1

僧伽罗文

1

泰卢固文

1

泰国语

1

总数

47

国际化域名 (IDN) 通用顶级域名 (TLD)

IDN 通用 TLD 的部署仍在进行中,需要全球语言文字社群的参与。希望在决定根区内允许的 TLD 的工作中有效展示其语言文字的每个语言文字社群都应参与到语言文字生成专家组的工作中。参与方式多种多样,例如,组织形成专家组、为专家组提供支持和促进专家组的工作、成为专家组的成员,或者在 ICANN 征求公众意见期间向专家组提供建议或反馈。文字生成专家组根据自下而上的多利益相关方协作模型(例如,ICANN 和其他互联网组织)来运作。为保证效率,专家组必须包含 DNS、Unicode、IDN、语言学和域名运作与策略方面的专家。如果无法获取专业知识,可以请求 ICANN 的帮助。

文字生成专家组负责提供建议,确定适用于根区的特定于文字的标签生成规则 (LGR)。这些建议的提出是基于每个语言文字社群的专业知识以及在国际化域名 (IDN) 顶级域 (TLD) 标签中使用特定文字的需求。工作还包括检查文字的所有字符,确定在 TLD 标签中将允许或不允许使用哪些字符以及哪些规则将适用于确定有效标签及其变体(如果有)。由于生成专家组必须涵盖文字字符的全部字汇及其对应的统一域名编码 (Unicode) 代码点,因此这项工作需要语言文字社群开展大量词汇工作。

当前有近 20 个语言文字社群正在积极制定其自己的根区标签生成规则。文字范围包括阿拉伯文、亚美尼亚语、孟加拉文、中文、西里尔文、梵文、古吉拉特文、果鲁穆奇文、日文、埃纳德文、高棉语、韩文、拉丁文、马来亚拉姆文、奥里雅语、泰米尔文和泰卢固文。处理亚太地区的文字需要花费大量工作。这并不奇怪,因为目前有 30 亿互联网用户来自该地区。预计到 2020 年,将新增 10 亿互联网用户。其中大部分也将来自亚太地区。用户需要以当地文字和语言来使用互联网。在亚洲,政府机构一直以来都积极开展并促进语言文字生成专家组的工作。这些政府机构了解对于本国国民而言,通过当地文字来访问和使用互联网是十分重要的。

相比于处理单一语种的专家组,聚焦于跨多种语言共享的文字的生成专家组将需要更多时间来完成其工作。例如,亚美尼亚语生成专家组只需六个月即可完成有关亚美尼亚语所使用的文字的建议。与此相反,阿拉伯文生成专家组需要近 20 个月才能完成这项工作。由于在非洲、中东和亚洲(尤其是西亚、南亚和东南亚地区)有超过 50 种语言使用阿拉伯文字,因此需要更长的时间。阿拉伯文生成专家组在以下两个方面都是根区标签生成规则项目的先驱者:它是首个通过自行组织,顺利完成工作,获得经验,生成方法和模板,指导后续生成专家组工作的小组。

来自阿拉伯文和亚美尼亚语的生成专家组的建议现均已完成,并且已经由 ICANN 发布,供公众审核和评论 - 请参阅表 2 以获取公众意见征求的链接。强烈鼓励受影响的语言社群予以响应并提供反馈,以确保根区的文字字汇可以满足互联网的用户语言需求。

表 2 - ICANN 关于文字生成专家组提出的标签生成规则建议征求公众意见

阿拉伯文字根区标签生成规则建议 - https://www.icann.org/public-comments/arabic-lgr-proposal-2015-08-24-en
(截止日期:2015 年 10 月 16 日)

亚美尼亚语文字根区标签生成规则建议 - https://www.icann.org/public-comments/proposal-armenian-lgr-2015-07-22-en
(截止日期:2015 年 8 月 31 日)

图 2 提供了阿拉伯文生成专家组建议用于形成阿拉伯文字的 IDN TLD 的所有字符概述。其中标识了建议包含和排除的字符以及建议适用于所有使用阿拉伯文字的语言的字符。

图 2 - 阿拉伯文生成专家组 (GP) 针对根区标签生成规则 (LGR) 建议的用阿拉伯文字符表示的相关统一域名编码 (Unicode)

黄色 - 阿拉伯文生成专家组建议用于根区标签生成规则的字符
蓝色 - 阿拉伯文生成专家组建议排除的字符
粉色 - 最大启动字汇 (MSR) 中排除的字符
白色 - 互联网工程任务组的 IDNA2008 不允许使用的字符


Relevant Unicode Tables with Arabic Characters Proposed by the Arabic Generation Panel (GP) for the Root Zone Label Generation Rules (LGR)

表 3 突出显示了东南亚地区的当地阿拉伯文字的案例(例如,爪夷文)。此案例说明了建议从 IDN TLD 排除的爪夷文字符。

表 3 - 爪夷文案例

爪夷文 (جاوي) 是东南亚地区语言中所用阿拉伯文字的当地名称。这些语言包括亚齐语、班贾尔语、马来语、米南加保语和陶撒格语。使用爪夷文的国家或地区包括文莱、印度尼西亚、新加坡和泰国。在次级区域内的其他国家或地区中也可以找到爪夷文的变体。爪夷文曾经是东南亚地区的主要文字。随着拉丁字母的广泛使用,其使用情况受到了影响。今天,在文莱和马来西亚,爪夷文仍享有正式文字地位。文莱将爪夷文作为其两种官方文字之一,马来西亚将它作为一般用于宗教、文化、学术和管理方面的文书。马来西亚成功将阿拉伯文字引入其 IDN 国家和地区代码 TLD (.مليسيا) 表明爪夷文在该国享有正式地位。阿拉伯文生成专家组在其确定根区标签生成规则的文字审核中纳入爪夷文和马来语作为考量要素。马来西亚有关爪夷文的关键文档显示有近 50 个字符(和对应的统一域名编码 (Unicode) 代码点)与阿拉伯文字存在关联。6 几乎所有这些字符都包含在阿拉伯文生成专家组针对根区的标签生成规则建议中。有三个字符被建议排除(请参阅下表)。

在阿拉伯文字的 IDN TLD 中建议排除的爪夷文字符表

字符

统一域名编码 (Unicode) 代码点

代码点名称和属性

爪夷文编码的字符名称7

[排除依据] - 合理性

۲

06F2

扩展的阿拉伯-印度文数字二

扩展的阿拉伯-印度文数字二

[IETF]8 - TLD 标签中不允许数字。

ڬ

06AC

含有以上点的阿拉伯文字母 KAF

GAF

[整合专家组]9 - 废弃的马来爪夷文。使用 ݢ (U+0762) 代替。

ء

阿拉伯文 HAMZAH 四分之三

[阿拉伯文生成专家组] - 无统一域名编码 (Unicode),因此不具备考量资格。

呼吁爪夷文文字和东南亚地区关联的语言社群审查此建议并通过 ICANN 公众意见流程(截止日期:2015 年 10 月 16 日)提供反馈(https://www.icann.org/public-comments/arabic-lgr-proposal-2015-08-24-en)。

根中语言多样性的技术限制

文字生成专家组的工作是非常鼓舞人心的,使世界向 ICANN 的"同一个世界,同一个互联网"的愿景又迈进了一步。ICANN 成员已普遍认识到,IDN 将促使全球大部分人口都能使用互联网,ICANN 社群强烈支持部署 IDN。这就促成了 IDN 计划,此计划支持启用 IDN ccTLD 的 IDN ccTLD 快速通道流程和启用通用 IDN TLD 的根区标签生成规则项目。

在全球,人口超过 70 亿,现存语言超过 7000 种,存在多种书写体系或文字,为全世界服务的互联网应具备语言多样性。10 由于根区是全球共享空间,根据互联网工程任务组建议的区域操作原则和 ICANN 的根安全性与稳定性策略,TLD 的添加受到限制。ICANN 针对制定和维持根区标签生成规则所采用的过程限制只有"存在明显加入兴趣的书写体系"才能被添加到根区内。11 强烈鼓励那些积极参与互联网并且有非常希望使其文字进入根区的语言社群参与其文字的标签生成规则流程。

普遍接受性难题

尽管 ICANN 及其利益相关方社群竭尽所能,但是实现多语种互联网面临着一个重大难题:普遍接受性。顶级域名自问世以来就在不断演变,并会随着 ICANN 新通用 TLD 计划的发展继续演变。12 某些互联网服务和软件应用无法跟上这一演变的步伐。这导致 TLD 无法供所有用户使用,并从根本上阻碍了用户访问网站、电子邮件和其他应用 - 请参阅表 4 以了解域名与互联网用户的关系。

"普遍接受性"的挑战包括互联网服务和软件应用不接受以非 ASCII 的多语种文字编写的 TLD、不接受长度超过三个字符的顶级域名,并且不接受在电子邮件中引入 IDN 或非 ASCII 名称。"普遍接受性指导小组"的报告显示:"从长期以来,软件和服务供应商从未认识到这些问题,或者缺少市场或法规激励,对可以实现平台或应用互操作性的解决方案投资甚少。"13

解决"普遍接受性"问题要求互联网服务供应商和软件开发商支持如下原则:必须以一致且有效的方式来接受、存储、处理和显示所有域名和电子邮件地址。为支持全球互联网用户,无论 TLD 采用何种文字、长度或新旧程度如何,都应该可在各种应用中使用。如果可以克服这一"普遍接受性"挑战,并且在全球范围内获得对当地内容的更多支持,那实现真正多语种的互联网就指日可待了。

表 4 - 域名与用户的关系

域名与互联网用户之间存在怎样的关系?

互联网资源以数字方式来显示。域名使人们更易于访问这些资源,而无须记忆这些数字。如果没有域名,大部分用户将无法访问和使用互联网、其服务和应用。这些应用包括万维网和电子邮件。需要记住的是,电子邮件地址包含的域名为"@"符号后的部分。互联网最终用户通常在访问 Web 浏览器、电子邮件和移动应用时使用域名。在互联网上设置服务在线帐户时也会使用域名。大部分最终用户使用域名来访问其他用户发布的内容。某些用户还会注册域名,以便通过网站发布自己的信息。

Rinalia Abdul Rahim 是根区标签生成规则的阿拉伯文生成专家组以及阿拉伯文 IDN 任务组的成员。她原先是一般会员 IDN 工作组的联合主席,该工作组专门处理全球个人互联网用户所关心的 IDN 问题。她也是 ICANN 董事会和 ICANN 董事会 IDN 和变体工作组的成员。


1 ASCII 表示美国信息交换标准码。

2 http://www.iso.org/iso/countrycodes/countrycodes

3 原始 ASCII 字符集允许在域名中包含字母 a-z、数字和连字符。顶级域名的特殊限制在于只允许包含字母,不允许数字或连字符。

4 https://www.icann.org/news/announcement-2010-05-05-en

5 https://www.icann.org/resources/pages/string-evaluation-completion-2014-02-19-en.

6 Dewan Bahasa dan Pustaka,Daftar Kata Bahasa Melayu-Rumi-Sebutan Jawi (2001);MYNIC/.MY 域名注册管理机构,提交给 ICANN 存储库的爪夷文语言表 (2009);MYNIC/.MY 域名注册管理机构,马来西亚国际化域名报告:爪夷文语言问题 V1.0 (2009);标准马来西亚,马来西亚 IT 标准 - 爪夷文信息交换编码字符集 (2012)。

7 标准马来西亚,马来西亚 IT 标准 - 爪夷文信息交换编码字符集 (2012)。

8 互联网工程任务组 (IETF) RFC1123 和 RFC6912

9 根区标签生成规则整合专家组,最大启动字汇已注解非中文、日文、韩文表格 - 20140606 第 32-38 页 (https://www.icann.org/en/system/files/files/msr-non-cjk-06jun14-en.pdf [PDF, 1.86 MB])。

10 https://www.ethnologue.com/enterprise-faq/how-many-languages-world-are-unwritten

11 https://www.icann.org/en/system/files/files/draft-lgr-procedure-20mar13-en.pdf [PDF, 1.39 MB]

12 请参阅 http://newgtlds.icann.org/en/program-status/delegated-strings 以获取授权给根的通用顶级域名滚动列表。

13 https://www.icann.org/resources/pages/universal-acceptance-2012-02-25-en

Rinalia Abdul Rahim