ru

Diversidade linguística na raiz da Internet: o caso da escrita árabe e Jawi

8 сентября 2015

Rinalia Abdul Rahim

В дополнение к языкам, использующимся в ООН, этот материал также доступен на

Representação de vários idiomas e escritas na raiz da Internet

A ICANN (Corporação da Internet para Atribuição de Nomes e Números) gerencia a zona raiz da Internet global. A zona raiz contém a lista oficial e o registro de todos os domínios de primeiro nível (TLDs). Desde o início da Internet, apenas um subconjunto de TLDs baseados em escrita latina era permitido na zona raiz. Isso acontecia devido à origem e ao design do DNS (Sistema de Nomes de Domínio). O DNS foi desenvolvido originalmente para funcionar com escrita latina em formato ASCII.1 Em 2010, foi implementada uma solução técnica para permitir a introdução de nomes de domínio em várias escritas e idiomas no primeiro nível do DNS sem desestabilizar a Internet.

Existem quatro tipos de TLDs relevantes para os usuários da Internet: domínios de primeiro nível com códigos de país (ccTLDs), domínios genéricos de primeiro nível (gTLDs), domínios de primeiro nível com código de país de IDN (IDN ccTLDs) e domínios genéricos de primeiro nível de IDN (IDN gTLDs). Os TLDs dentro da categoria de códigos de país representam nomes oficiais de países e territórios conforme o padrão internacional ISO3166-1.2 Os TLDs genéricos se relacionam a nomes ou representações de nomes não associados aos nomes oficiais de países e territórios. Os nomes de domínio internacionalizados (IDNs) são os nomes de domínio em vários idiomas e escritas que vão além do conjunto de caracteres ASCII original.3 No quadro 1, temos exemplos de domínios de primeiro nível por categoria.

Quadro 1 – Etiquetas de nomes de domínio e exemplos de domínios de primeiro nível por categoria

O que são etiquetas de nomes de domínio?

Os nomes de domínio são organizados de acordo com uma hierarquia de etiquetas, do nível mais baixo ao nível mais alto dentro do DNS (Sistema de Nomes de Domínio). Exemplo: en.wikipedia.org. Nesse caso, "org" é uma etiqueta de nome de domínio de primeiro nível, o mais alto. "Wikipedia" é uma etiqueta de nome de domínio de segundo nível, e "en" [e uma etiqueta de nome de domínio de terceiro nível, o mais baixo.

Exemplos de domínios de primeiro nível (TLDs) por categoria

ccTLD

.de (Alemanha) | .et (Etiópia) | .my (Malásia) | .pr (Porto Rico)

IDN ccTLD

مصر (Egito) | 中国 (China) | भारत (India) | ไทย (Tailândia)

gTLD

.com | .org | .ngo | .guru | .bank | .email | .organic | .photography

IDN gTLD

みんな (todos) | дети (crianças) | संगठन (organização) | 世界 (mundo) | بازار (bazar) | 삼성 (Samsung) | vermögensberatung (consultoria financeira) | คอม, (com)

Domínios de Primeiro Nível com Código de País de IDN

Só em 2010 passou a ser possível para os países ter seus TLDs de códigos de país representados em escritas não latinas. A ICANN estabeleceu a Tramitação Rápida de Domínios de Primeiro Nível com Código de País de Nomes de Domínio Internacionalizados para acomodar a necessidade dos países de ter seus TLDs de códigos e nomes de países em escrita local, refletindo o idioma de seu povo.

O primeiro conjunto de ccTLDs de IDN inserido na zona raiz foi em árabe.4 Em meados de 2015, a ICANN já tinha aprovado 47 ccTLDs de IDN em 15 escritas e 24 idiomas.5 Dois terços dessas escritas são utilizadas na região da Ásia-Pacífico. A maior demanda por ccTLDs de IDN era nas escritas árabe (38%), cirílica (14,9%), Han (14,9%), Tamil (6,4%) e Bangla/Bengali (4,3%). Consulte a figura 1 para ver os detalhes de todas as solicitações de ccTLDs de IDN. A Índia se destaca por ter o maior número de escritas (sete no total) representando o nome de seu país. Isso reflete a diversidade linguística nacional.

Figura 1 - Detalhe das solicitações de ccTLDs de IDN

Escrita solicitada

Número de solicitações

Árabe

18

Cirílico

7

Han (chinês)

7

Tamil

3

Bangla/Bengali

2

Armênio

1

Devanágari

1

Georgiano

1

Grego

1

Gujarati

1

Gurmukhi

1

Hangul

1

Sinhala

1

Telugu

1

Tailandês

1

Total

47

TLDs genéricos de IDN

A implementação de TLDs genéricos de IDN ainda está em andamento e exige a participação das comunidades de escritas do mundo todo. Cada comunidade de idioma que quiser ter sua escrita efetivamente representada em processos que determinem os TLDs que serão permitidos na zona raiz devem participar do trabalho dos painéis de geração de escritas. A participação pode ocorrer de várias maneiras, como formar, apoiar e facilitar os painéis, ser membro dos painéis ou fazer comentários para os painéis durante o período de comentários públicos. Os painéis de geração de escritas funcionam de acordo com o modelo ascendente de colaboração multissetorial utilizado na ICANN e em outras organizações da Internet. Para ser eficientes, os painéis devem ser formados por especialistas em DNS, Unicode, IDNs, linguística, operações e políticas de nomes de domínio. Se não houver a expertise necessária, é possível pedir assistência à ICANN.

Os painéis de geração de escritas são responsáveis por desenvolver propostas que determinem regras de geração de etiquetas (LGR) específicas para cada escrita para a zona raiz. Essas propostas são desenvolvidas com base na expertise de cada comunidade de escrita e nos requisitos para o uso de uma determinada escrita em etiquetas de TLDs de IDN. Entre outras coisas, o trabalho envolve analisar todos os caracteres de uma escrita e identificar quais deles seriam permitidos para uso em etiquetas de IDN, quais não seriam e quais regras se aplicam à determinação de etiquetas válidas e suas variantes (se houver). Como os painéis de geração precisam cobrir todo o repertório de caracteres das escritas e seus pontos Unicode correspondentes, o processo exige um trabalho voluntário considerável das comunidades de escritas.

No momento, aproximadamente 20 comunidades de escritas estão trabalhando ativamente no desenvolvimento de regras de geração de etiquetas para a zona raiz. São elas: árabe, armênio, bengali, chinês, cirílico, devanagari, gujarati, gurmukhi, japonês, kannada, khmer, coreano, latim, malayalam, oriya, tamil e telugu. O grande volume de trabalho se concentra nas escritas da região Ásia-Pacífico. Isso não é de surpreender, já que aproximadamente metade dos três bilhões de usuários da Internet estão nessa região. Até 2020, espera-se que o número de usuários da Internet aumente em um bilhão. A maior parte deles também virá da região da Ásia-Pacífico. Existe demanda para o uso da Internet em escritas e idiomas locais. Na Ásia, os governos foram providenciais para iniciar e facilitar o lançamento dos painéis de geração de escritas. Esses governos entendem a importância da possibilidade de acesso e uso da Internet em escrita local para a população.

Os painéis de geração que enfocam uma escrita compartilhada entre vários idiomas precisam demais tempo para concluir seu trabalho em comparação com os painéis que enfocam um só idioma. Por exemplo, o painel de geração armênio precisou de apenas seis meses para concluir sua proposta para a escrita usada pelo idioma armênio. Por sua vez, o painel de geração árabe demorou aproximadamente 20 meses para concluir seu trabalho. O período mais longo foi necessário porque a escrita árabe é usada por mais de 50 idiomas na África, no Oriente Médio e na Ásia (especificamente no Oeste, no Sul e no Sudeste da Ásia). O painel de geração árabe foi pioneiro no projeto de regras de geração de etiquetas da zona raiz de duas maneiras. Ele foi o primeiro a se organizar para o trabalho, e sua experiência gerou a metodologia e os modelos usados para orientar o trabalho dos painéis de geração subsequentes.

As propostas dos painéis de geração árabe e armênio já foram concluídas e foram publicadas pela ICANN para análise e comentários públicos. Vejam no quadro 2 os links para as convocações de comentários públicos. Recomendamos que as comunidades de idiomas afetadas respondam e façam comentários para garantir que os repertórios de escritas da zona raiz resolvam as necessidades linguísticas dos usuários na Internet.

Quadro 2 – Convocação de comentários públicos da ICANN sobre as propostas de LGR do painel de geração de escritas

Proposta de regras para a geração de etiquetas da zona raiz em escrita árabe - https://www.icann.org/public-comments/arabic-lgr-proposal-2015-08-24-en.
(Data de encerramento: 16 de outubro de 2015)

Proposta de regras para a geração de etiquetas da zona raiz em escrita armênia - https://www.icann.org/public-comments/proposal-armenian-lgr-2015-07-22-en.
(Data de encerramento: 31 de agosto de 2015)

A figura 2 contém uma visão geral de todos os caracteres que o painel de geração árabe propõe para formar os TLDs de IDN em escrita árabe. Ela identifica os caracteres propostos para inclusão e exclusão, que seriam aplicáveis para todos os idiomas que usam a escrita árabe.

Figura 2 – Tabelas Unicode relevantes com caracteres árabes propostos pelo Painel de geração (GP) árabe para as regras de geração de etiquetas para a zona raiz (LGR)

Amarelo – Proposto para o LGR da zona raiz pelo GP árabe
Azul – Excluído pelo GP árabe
Rosa – Excluído do Repertório Máximo Inicial (MSR)
Branco – Reprovado pelo IDNA 2008 do IETF


Relevant Unicode Tables with Arabic Characters Proposed by the Arabic Generation Panel (GP) for the Root Zone Label Generation Rules (LGR)

O quadro 3 destaca o caso de uma escrita árabe localizada no Sudeste da Ásia (Jawi). O caso identifica caracteres Jawi propostos para exclusão dos TLDs de IDN.

Quadro 3 – O caso da escrita Jawi

Jawi (جاوي) é o nome localizado da escrita árabe usada nos idiomas do Sudeste da Ásia. Alguns desses idiomas são: achinês, banjara, malaio, minangkabau e tausug. Alguns países que utilizam a escrita Jawi são: Brunei, Indonésia, Malásia, Cingapura e Tailândia. Outros países dessa sub-região também utilizam variações do Jawi, que já foi a escrita dominante no Sudeste da Ásia. Sua utilização foi diminuída com a adoção do alfabeto latino. Atualmente, a escrita Jawi continua sendo oficial em Brunei e na Malásia. Em Brunei ela é uma das duas escritas oficiais, e na Malásia ela é usada como escrita alternativa, geralmente reservada para fins religiosos, culturais, acadêmicos e administrativos. A solicitação do TLD com código de país de IDN em escrita árabe (.مليسيا) pela Malásia demonstra o status oficial do Jawi no país. O painel de geração árabe levou em conta o Jawi e o idioma malaio em sua análise de escrita para determinar as regras de geração de etiquetas para a zona raiz. As principais documentações relacionadas ao Jawi na Malásia revelam aproximadamente 50 caracteres (e pontos de codificação Unicode correspondentes) de interesse na escrita árabe.6 Praticamente todos esses caracteres foram incluídos na proposta de regras de geração de etiquetas para a zona raiz do painel de geração árabe. Foi proposta a exclusão de três caracteres (consulte a tabela abaixo).

Tabela de caracteres Jawi propostos para exclusão em TLDs de IDN para a escrita árabe

Caractere

Ponto de codificação Unicode

Nome e propriedades do ponto de codificação

Nome do caractere codificado em Jawi7

[Excluído por] - Justificativa

۲

06F2

NÚMERO DOIS INDO-ARÁBICO ESTENDIDO

NÚMERO DOIS INDO-ARÁBICO ESTENDIDO

[IETF]8 – Números não são permitidos em etiquetas de TLDs.

ڬ

06AC

LETRA KAF ÁRABE COM UM PONTO EM CIMA

GAF

[Painel de integração]9 - Malaio - Jawi obsoleto. Em vez disso, use ݢ (U+0762).

ء

NENHUM

NENHUM

TRÊS QUARTOS EM HAMZAH ÁRABE

[Painel de geração árabe] - Não há codificação Unicode, portanto não pode ser considerado.

Pedimos que as comunidades de escrita Jawi e idiomas associados no Sudeste da Ásia analisem a proposta e façam comentários por meio do processo de comentários públicos da ICANN, que ficará aberto até 16 de outubro de 2015 (https://www.icann.org/public-comments/arabic-lgr-proposal-2015-08-24-en).

Restrições técnicas à diversidade linguística na raiz

O trabalho dos painéis de geração de escritas é estimulante e ajuda a deixar o mundo mais próximo à visão da ICANN de "um mundo, uma Internet". Na ICANN, há um amplo reconhecimento de que os IDNs aumentarão o uso da Internet pela maior parte da população mundial, e a comunidade da ICANN apoiou seu desenvolvimento. Isso levou à criação do Programa de IDN, que deu apoio à Tramitação Rápida de Domínios de Primeiro Nível com Código de País de Nomes de Domínio Internacionalizados, que possibilitou os ccTLDs de IDN e o projeto de regras de geração de etiquetas para a zona raiz, que por sua vez possibilitaram os TLDs genéricos de IDN.

A Internet deve ter diversidade linguística para atender a esse mundo com mais de sete bilhões de pessoas, mais de sete mil idiomas vivos e vários sistemas linguísticos ou escritas.10 Como a zona raiz é um espaço global compartilhado, a adição de TLDs é restrita de acordo com os princípios de operação da zona propostos pelas políticas da Força Tarefa de Engenharia de Internet e da ICANN para a segurança e a estabilidade da raiz. O procedimento adotado pela ICANN para desenvolver e manter regras de geração de etiquetas para a zona raiz restringe as adições à zona raiz a "sistemas de escrita em que haja interesses claros".11 Recomendamos que as comunidades de idiomas ativas na Internet que tenham interesse claro em que suas escritas sejam incorporadas à zona raiz participem do processo de regras de geração de etiquetas relacionado a suas escritas.

O desafio da aceitação universal

Apesar de todos os esforços da ICANN e sua comunidade de partes interessadas, existe um grande obstáculo para conseguir que a Internet seja multilíngue: a aceitação universal. Os domínios de primeiro nível evoluíram desde que foram apresentados ao mundo e continuarão evoluindo com a expansão do programa de novos TLDs genéricos da ICANN.12 Alguns serviços da Internet e aplicativos de software não acompanharam essa evolução. Isso faz com que os TLDs não possam ser usados e bloqueia o acesso dos usuários a sites, e-mails e outros aplicativos. Veja no quadro 4 como os nomes de domínio são relevantes para os usuários da Internet.

Alguns desafios da "aceitação universal" são os serviços da Internet e aplicativos de software que não aceitam TLDs em escritas multilíngues que não são ASCII e nomes de TLDs com mais de três caracteres, e que não são compatíveis com IDNs ou nomes não ASCII em e-mails. De acordo com o Grupo de Gestão da Aceitação Universal, "Os provedores de software e serviços costumam desconhecer esses problemas ou não ter incentivos normativos ou de mercado para investir em soluções que resultem na interoperabilidade real das plataformas ou dos aplicativos".13

Para resolver o problema da "aceitação universal", os provedores de serviços de Internet e desenvolvedores de software precisam apoiar o princípio de que todos os nomes de domínio e endereços de e-mail devem ser aceitos, armazenados, processados e exibidos de maneira consistente e efetiva. Para dar suporte aos usuários da Internet no mundo todo, é necessário que os TLDs possam ser usados em aplicativos independentemente de sua escrita, extensão ou inovação. Se o desafio da "aceitação universal" puder ser superado, e com mais suporte para conteúdo local no mundo todo, poderemos ter uma Internet realmente multilíngue.

Quadro 4 – Relevância dos nomes de domínio para os usuários

Por que os nomes de domínio são relevantes para os usuários da Internet?

Os recursos da Internet têm endereços numéricos. Com os nomes de domínio, as pessoas podem acessar esses recursos sem precisar memorizar números. A maioria dos usuários não conseguiria acessar e usar a Internet, seus serviços e aplicativos sem nomes de domínio. A World Wide Web e o e-mail são alguns desses aplicativos. Vale lembrar que os endereços de e-mail contêm nomes de domínio depois do símbolo "@". Os usuários finais da Internet costumam usar nomes de domínio quando acessam navegadores, e-mails e aplicativos móveis. Eles também usam nomes de domínio quando criam contas on-line para serviços da Internet. A maioria dos usuários finais usa nomes de domínio para acessar conteúdo publicado por outros. Alguns deles também registram nomes de domínio para publicar as próprias informações em sites.

 

Rinalia Abdul Rahim faz parte do painel de geração árabe para regras de geração de etiquetas da zona raiz e da força tarefa para IDNs árabes. Ela foi copresidente do Grupo de Trabalho At-Large para IDNs, que enfoca questões relacionadas a IDNs de interesse para os usuários da Internet no mundo todo. Ela também faz parte da Diretoria da ICANN e do Grupo de Trabalho da Diretoria da ICANN sobre IDNs e variantes.


1 ASCII significa Código Padrão Americano para o Intercâmbio de Informação.

2 http://www.iso.org/iso/countrycodes/countrycodes

3 O conjunto original de caracteres ASCII permitido em nomes de domínio incluía as letras de "a" a "z", números e hífen. Os nomes de domínio de primeiro nível têm uma restrição especial, pois só podem conter letras e não números e hífen.

4 https://www.icann.org/news/announcement-2010-05-05-en

5 https://www.icann.org/resources/pages/string-evaluation-completion-2014-02-19-en.

6 Dewan Bahasa dan Pustaka, Daftar Kata Bahasa Melayu-Rumi-Sebutan Jawi (2001); Registro de domínios MYNIC/.MY, Tabela no idioma Jawi enviada ao repositório da IANA (2009); Registro de domínios MYNIC/.MY, Relatório do nome de domínio internacionalizado da Malásia: questões do idioma Jawi, versão 1.0 (2009); Padrões da Malásia, Padrão de TI da Malásia para o conjunto de caracteres com codificação Jawi para o intercâmbio de informações (2012).

7 Padrões da Malásia, Padrão de TI da Malásia para o conjunto de caracteres com codificação Jawi para o intercâmbio de informações (2012).

8 Força tarefa de engenharia da Internet (IETF) RFC1123 e RFC6912

9 Painel de Integração de LGR de zona raiz, MSR-1-Annotated-non-CJK-Tables-20140606, páginas 32-38 (https://www.icann.org/en/system/files/files/msr-non-cjk-06jun14-en.pdf [PDF, 1,86 MB]).

10 https://www.ethnologue.com/enterprise-faq/how-many-languages-world-are-unwritten

11 https://www.icann.org/en/system/files/files/draft-lgr-procedure-20mar13-en.pdf [PDF, 1,39 MB]

12 Consulte http://newgtlds.icann.org/en/program-status/delegated-strings para ver uma lista de TLDs genéricos que serão delegados na raiz.

13 https://www.icann.org/resources/pages/universal-acceptance-2012-02-25-en

Rinalia Abdul Rahim