es

Diversidad lingüística en la raíz de Internet: El caso del código de escritura árabe y el alfabeto jawi

8 de septiembre de 2015

Rinalia Abdul Rahim

Además de estar disponible en los seis idiomas de las Naciones Unidas, este contenido también está disponible en

En representación de múltiples idiomas y códigos de escritura en la raíz de Internet

La Corporación para la Asignación de Nombres y Números en Internet (ICANN) gestiona la zona raíz de la Internet global. La zona raíz contiene la lista autoritativa y el registro de todos los Dominios de Alto Nivel (TLDs). Desde el comienzo de Internet, en la raíz sólo se permitía un subconjunto de TLDs basados en el código de escritura latino. Esto se debe al origen y diseño legado del Sistema de Nombres de Dominio (DNS). El DNS fue originalmente diseñado para manejar el código de escritura latina en formato ASCII.1 En 2010 se implementó una solución técnica para permitir la introducción de nombres de dominio en múltiples códigos de escritura e idiomas en el nivel superior del DNS, sin desestabilizar a Internet.

Hay cuatro tipos de TLDs que son relevantes para los usuarios de Internet: los Dominios de Alto Nivel con Código de País (ccTLDs), los Dominios Genéricos de Alto Nivel (gTLDs), los Dominios de Alto Nivel Internacionalizados con Código de País (IDN ccTLDs) y los Dominios Genéricos de Alto Nivel Internacionalizados (IDN gTLDs). Los TLDs que recaen bajo la categoría de códigos de país representan a los nombres oficiales de los países y territorios según lo determinado por la norma internacional ISO3166-1.2 Los gTLDs pertenecen a nombres o constituyen la representación de nombres distintos a aquellos relativos a los nombres oficiales de los países y territorios. Los Nombres de Dominio Internacionalizados (IDNs) se refieren a los nombres de dominio en múltiples códigos de escritura e idiomas que van más allá del conjunto original de caracteres ASCII.3 Consulte el Cuadro 1 para ejemplos de TLDs por categoría.

Cuadro 1 - Etiquetas de nombre de dominio y ejemplos de dominios de alto nivel por categoría

¿Qué son las Etiquetas de nombre de dominio?

Los nombres de dominio se organizan de acuerdo a una jerarquía de etiquetas desde el nivel más bajo hasta el nivel más alto en el Sistema de Nombres de dominio (DNS). Ejemplo: en.wikipedia.org. Aquí, "org" es una etiqueta de nombre de dominio del nivel más alto o superior, "wikipedia" es una etiqueta de nombre de dominio del segundo nivel, y "en" es una etiqueta de nombre de dominio del tercer nivel y el más bajo.

Ejemplos de Dominios de Alto Nivel (TLDs) por categoría

ccTLD

.de (Alemania) | .et (Etiopía) | .my (Malasia) | .pr (Puerto Rico)

IDN ccTLD

مصر (Egipto) | 中国 (China) | भारत (India) | ไทย (Tailandia)

gTLD

.com | .org | .ngo | .guru | .bank | .email | .organic | .photography

IDN gTLD

みんな (todos) | дети (niños) | संगठन (organización) | 世界 (mundo) | بازار (bazar) | 삼성 (Samsung) | vermögensberatung (asesoramiento financiero) | คอม, (com)

Dominios de Alto Nivel Internacionalizados con Código de País (IDN ccTLDs)

No fue sino hasta el año 2010 que se posibilitó que los países tengan sus TLDs con código de país representados en códigos de escritura no latina. La ICANN estableció el Proceso de Avance Acelerado de Dominios de Alto Nivel Internacionalizados con Código de País (IDN ccTLDs) para dar cabida a la necesidad de que los países tengan sus propios TLDs con códigos de país y nombre del país en el código de escritura local que refleje su base lingüística.

El primer conjunto de IDN ccTLDs insertado en la zona raíz fue en árabe.4 A mediados de 2015, la ICANN había aprobado 47 IDN ccTLDs que cubren 15 códigos de escritura y 24 idiomas.5 Dos tercios de estos códigos de escritura son relevantes para la región de Asia Pacífico. La mayor demanda de IDN ccTLDs fue para la escritura árabe (38%), seguido por el cirílico (14,9%) y Han (14,9%), Tamil (6,4%) y Bangla/Bengalí (4,3%); véase la Figura 1 para un desglose de todas las solicitudes de IDN ccTLDs. La India tiene la distinción de contar con el mayor número de códigos de escritura (siete en total) que representan a su nombre de país, lo cual refleja su diversidad lingüística nacional.

Figura 1 - Desglose de las Solicitudes de IDN ccTLDs

Código de Escritura Solicitado

Cantidad de Solicitudes

árabe

18

cirílico

7

han (chino)

7

tamil

3

bangla/bengalí

2

armenio

1

devanagari

1

georgiano

1

griego

1

gujarati

1

gurmukhi

1

hangul

1

sinhala/cingalés

1

télugu

1

tailandés

1

Total

47

Dominios Genéricos de Alto Nivel Internacionalizados (IDN gTLDs)

El despliegue de los IDN gTLDs aún en curso y requiere de la participación de las comunidades de códigos de escritura a nivel mundial. Cada comunidad lingüística que desee contar con su propio código de escritura representado efectivamente en los esfuerzos que determinan cuáles TLDs serían permitidos en la zona raíz, debe participar en la labor de los Paneles de Generación de Códigos de Escritura. La participación puede adoptar diversas formas, tales como la conformación, el apoyo y la facilitación de los Paneles, la participación en un Panel en calidad de miembro o el suministro de aportes o retroalimentación a los Paneles durante la convocatoria de comentarios públicos correspondiente, emitida por la ICANN. Los Paneles de Generación de Códigos de Escritura funcionan de acuerdo con el modelo de colaboración de múltiples partes interesadas, de abajo hacia arriba, que ejemplifica a la ICANN y a otras organizaciones de Internet. En pos de su mayor eficacia, los Paneles deben incluir expertos en el DNS, Unicode, IDNs, lingüística, así como en operaciones y políticas de los nombres de dominio. Cuando no se disponga de dicha pericia, se podrá solicitar ayuda por parte de la ICANN.

Los Paneles de Generación de Códigos de Escritura son responsables por la elaboración de propuestas que determinen las Reglas para la Generación de Etiquetas (LGRs) de la zona raíz, específicas para un código de escritura determinado. Estas propuestas son elaboradas sobre la base de la experiencia de la comunidad de un código de escritura determinado, así como de los requisitos para el uso de un código de escritura particular en las etiquetas de IDN TLDs. Entre otras cosas, la labor consiste examinar todos los caracteres de un código de escritura e identificar cuáles caracteres serían permitidos para utilizarse en las etiquetas de TLDs, cuáles no serían permitidos y qué reglas se aplicarían para determinar las etiquetas válidas y sus variantes (si las hubiere). Como los Paneles de Generación tienen que cubrir el repertorio completo de caracteres de cada código de escritura, conjuntamente con sus puntos de código Unicode correspondientes, el trabajo exige un esfuerzo voluntario considerable por parte de las comunidades de códigos de escritura.

Actualmente, cerca de 20 comunidades de códigos de escritura están trabajando activamente en el desarrollo de sus Reglas para la Generación de Etiquetas de la zona raíz. La gama de códigos de escritura incluye: árabe, armenio, bengalí, chino, cirílico, devanagari, gujarati, gurmukhi, japonés, kannada, jemer, coreano, latino, malayalam, oriya, tamil y télugu. La mayor parte del trabajo se concentra en los códigos de escritura de la región de Asia Pacífico. Esto no es sorprendente teniendo en cuenta que casi la mitad de los 3 millones de usuarios de Internet existentes se encuentran en esa región. Se espera que los próximos mil millones de usuarios de Internet comiencen a estar en línea en el año 2020. La mayoría de ellos también vendrá de la región de Asia Pacífico. Existe una demanda de uso de Internet en los códigos de escritura e idiomas locales. En Asia, los gobiernos han sido fundamentales para iniciar y facilitar el lanzamiento de los Paneles de Generación de Códigos de Escritura. Estos gobiernos entienden la importancia de la accesibilidad de Internet y la facilidad de uso que los códigos de escritura locales implican para su población.

Los Paneles de Generación que se enfocan en un código de escritura compartido por muchos idiomas, requerirá más tiempo para completar su trabajo en comparación con los Paneles que tratan con un solo idioma. Por ejemplo, la compleción de la propuesta del Panel de Generación en Código de Escritura Armenio que se ocupó de un solo código de escritura utilizado por el idioma armenio, únicamente requirió de seis meses En contraposición, el Panel de Generación en Código de Escritura Árabe necesitó aproximadamente 20 meses para completar su labor. El período más largo de tiempo es necesario dado que el código de escritura árabe es utilizado por más de 50 idiomas a través de África, Medio Oriente y Asia (especialmente Asia Occidental, Asia del Sur y Sudeste de Asia). El Panel de Generación en Código de Escritura Árabe fue un pionero en el proyecto de las Reglas para la Generación de Etiquetas de la Zona Raíz, de dos maneras. Por un lado fue el primero en organizarse para realizar el trabajo y además su experiencia ha dado lugar a la metodología y las plantillas que se han venido utilizando para guiar el trabajo de los Paneles de Generación posteriores.

Las propuestas de ambos Paneles de Generación en Código de Escritura Árabe y Armenio se encuentran ahora completas y han sido publicadas por la ICANN para la revisión pública y presentación de comentarios; consulte el Cuadro 2 para ver los enlaces a las convocatorias de comentarios públicos. Se alienta enfáticamente a las comunidades lingüísticas afectadas que respondan y brinden su retroalimentación con el fin de garantizar que los repertorios del código de escritura para la zona raíz cubren las necesidades lingüísticas de los usuarios en Internet.

Cuadro 2: Convocatoria de la ICANN para la presentación de comentarios públicos sobre las propuestas de LGR del Panel de Generación de Códigos de Escritura.

Propuesta de las Reglas para la Generación de Etiquetas del Código de Escritura Árabe: https://www.icann.org/public-comments/arabic-lgr-proposal-2015-08-24-en.
(Fecha de cierre: 16 de octubre de 2015)

Propuesta de las Reglas para la Generación de Etiquetas del Código de Escritura Armenio: https://www.icann.org/public-comments/proposal-armenian-lgr-2015-07-22-en.
(Fecha de cierre: 31 de Agosto de 2015)

La figura 2 brinda una visión general de todos los caracteres que el Panel de Generación en Código de Escritura Árabe propone para la formación de IDN TLDs en el código de escritura árabe. Dicha propuesta identifica cuáles caracteres se proponen para ser incluidos y excluidos, así como cuáles serían aplicables a todos los idiomas que utilizan el código de escritura árabe.

Figura 2 : Tablas Unicode relevantes con caracteres árabes propuestos por el Panel de Generación (GP) en Código de Escritura Árabe para incluirse en las Reglas para la Generación de Etiquetas (LGRs) de la Zona Raíz.

Amarillo – Propuesto para las LGRs de la Zona Raíz por parte del Panel de Generación en Código de Escritura Árabe
Azul – Excluidos por parte del Panel de Generación en Código de Escritura Árabe
Rosa – Excluidos por parte del Repertorio Máximo Inicial (MSR)
Blanco – No permitidos por el protocolo IDNA (Nombres de Dominio Internacionalizados en Aplicaciones) 2008 del IETF (Grupo de Trabajo en Ingeniería de Internet).


Relevant Unicode Tables with Arabic Characters Proposed by the Arabic Generation Panel (GP) for the Root Zone Label Generation Rules (LGR)

El Cuadro 3 destaca el caso de un código de escritura árabe localizado en el sudeste asiático (es decir, el jawi). El caso identifica los caracteres jawi propuestos para exclusión de los IDN TLDs.

Cuadro 3 - El caso de los caracteres jawi

Jawi (جاوي) es el nombre localizado del código de escritura árabe utilizado en idiomas del sudeste asiático. Estos idiomas incluyen el aceh, banjarese, malayo, minangkabau y tausug. Los países con registros de uso jawi incluyen a Brunei, Indonesia, Malasia, Singapur y Tailandia. Las variantes del jawi también se encuentran en otros países de la subregión. El alfabeto jawi fue una vez el código de escritura dominante del sudeste de Asia. Su uso se ha visto afectado por la amplia adopción del alfabeto latino. Hoy el jawi conserva un estatus formal en Brunei y Malasia. Brunei adoptó el jawi como uno de sus códigos de escritura oficiales, mientras que Malasia lo utiliza como un código de escritura alternativo que en general se reserva para fines religiosos, culturales, académicos y administrativos. La implementación exitosa de Malasia para su IDN TLD en el código de escritura árabe (.مليسيا) es indicativo del estatus formal del alfabeto Jawi en el país. En su revisión del código de escritura, el Panel de Generación en Código de Escritura Árabe factorizó el jawi y el idioma malayo con el fin de determinar las Reglas para la Generación de Etiquetas de la zona raíz. La documentación clave relacionada con el jawi de Malasia revela cerca de 50 caracteres (y los puntos de código Unicode correspondientes) de interés en la escritura árabe.6 Casi todos los caracteres han sido incluidos en la propuesta de las Reglas para la Generación de Etiquetas en la Zona Raíz, elaborada por el Panel de Generación en Código de Escritura Árabe. Se propuso la exclusión de tres caracteres (véase el cuadro más abajo).

Tabla de caracteres jawi con propuesta de exclusión en los IDN TLDs para el código de escritura árabe.

Carácter

Puntos de código Unicode

Nombre y Propiedades de Puntos de código

Nombre del carácter en código jawi7

[Excluido por] - Fundamento

۲

06F2

NÚMERO DOS EXTENDIDO ARÁBIGO-ÍNDICO

NÚMERO DOS EXTENDIDO ARÁBIGO-ÍNDICO

[IETF]8 – En las etiquetas de TLD no se permiten números.

ڬ

06AC

LETRA ÁRABE KAF CON PUNTO ARRIBA

GAF

[Panel de Integración]9 - Carácter malayo-jawi obsoleto. Usar ݢ (U+0762) en su lugar.

ء

NINGUNO

NINGUNO

HAMZA, grafema auxiliar del ÁRABE que representa TRES CUARTOS

[Panel de Generación del Código de Escritura Árabe]: No tiene codificación Unicode y por lo tanto no es elegible para su consideración.

Se insta la revisión de la propuesta del código de escritura jawi por parte de las comunidades lingüísticas asociadas en el sudeste asiático, con el fin de proporcionar retroalimentación a través del proceso de comentarios públicos de la ICANN, el cual estará abierto hasta el día 16 de octubre de 2015 (https://www.icann.org/public-comments/arabic-lgr-proposal-2015-08-24-en).

Restricciones técnicas a la diversidad lingüística en la raíz

El trabajo de los Paneles Generación de Códigos de Escritura es alentador y mueve al mundo más cerca de la visión de la ICANN para "Un mundo, una Internet". En la ICANN existe un amplio reconocimiento de que los IDNs incrementarán el uso de Internet por parte de la mayoría de la población mundial y la comunidad de la ICANN apoya firmemente el despliegue de los IDNs. Esto llevó a la creación del Programa de IDNs, que apoyó el Proceso de Avance Acelerado de Dominios de Alto Nivel Internacionalizados con Código de País (IDN ccTLDs), el cual facilitó los proyectos de IDN ccTLDs y las Reglas para la Generación de Etiquetas de la Zona Raíz que habilitaron los Dominios Genéricos de Alto Nivel Internacionalizados (IDN gTLDs).

En un mundo con más de siete mil millones de personas, más de 7.000 lenguas vivas y numerosos sistemas de escritura o códigos de escritura, una Internet que sirva al mundo debe ser lingüísticamente diversa.10 Debido a que la zona raíz es un espacio global compartido, el agregado de TLDs está restringido de acuerdo a los principios para el funcionamiento de la zona, propuestos por el Grupo de Trabajo en Ingeniería de Internet y las políticas de la ICANN para garantizar la seguridad y estabilidad de la raíz. El procedimiento adoptado por la ICANN para el desarrollo y mantenimiento de las Reglas para la Generación de Etiquetas de la zona raíz restringe en ésta el agregado de "aquellos sistemas de escritura que cuentan con un claro interés".11 Se recomienda enfáticamente a las comunidades lingüísticas que están activas en Internet y que cuentan con un claro interés en que su código de escritura sea agregado a la zona raíz, que participen en el proceso de las Reglas para la Generación de Etiquetas para su código de escritura.

El desafío de la aceptación universal

A pesar de todos los esfuerzos realizados por la ICANN y su comunidad de partes interesadas, hay un principal obstáculo que se interpone en el camino de lograr una Internet multilingüe: La Aceptación Universal. Desde que fueron presentados al mundo, los TLDs han evolucionado y continuarán evolucionando con una mayor expansión del Programa de nuevos gTLDs de la ICANN.12 Algunos servicios de Internet y aplicaciones de software no han seguido el ritmo de esa evolución. Esto hace que los TLDs no sean utilizables para los usuarios y esencialmente bloquean el acceso de los usuarios a sitios web, correo electrónico y otras aplicaciones; consulte el Cuadro 4 para conocer cómo los nombres de dominio son relevantes para los usuarios de Internet.

Los desafíos de la "Aceptación Universal" incluyen los servicios de Internet y las aplicaciones de software que no aceptan TLDs escritos en códigos de escritura multilingües que no sean ASCII, no aceptando así a los nombres de dominio de alto nivel que tienen más de tres caracteres y no apoyando la introducción de los IDNs o nombres no ASCII en el correo electrónico. De acuerdo con el Grupo Directivo de Aceptación Universal: "Históricamente, los proveedores de software y de servicios no han estado conscientes de estos problemas o han tenido un mercado o incentivo regulador demasiado pequeño como para invertir en soluciones que traerían una verdadera interoperabilidad de las plataformas o aplicaciones."13

La resolución del problema de la "Aceptación Universal" requiere conseguir los proveedores de servicios de Internet y desarrolladores de software que apoyen el principio de que todos los nombres de dominio y direcciones de correo electrónico deben ser aceptados, almacenados, procesados y mostrados de una manera coherente y eficaz. Para apoyar a los usuarios de Internet en todo el mundo, los TLDs deben hacerse utilizables en las aplicaciones, independientemente de su código de escritura, longitud o novedad. De poder superarse este desafío de la "Aceptación Universal", y de contar con más apoyo para los contenidos locales en todo el mundo, podríamos ser capaces de tener una Internet verdaderamente multilingüe.

Cuadro 4: Relevancia de nombres de dominio para los usuarios

¿Cómo son los nombres de dominio relevantes para los usuarios de Internet?

Los recursos de Internet están dirigidos en forma numérica. Los nombres de dominio facilitan que las personas accedan a esos recursos sin tener que memorizar números. Sin los nombres de dominio, la mayoría de los usuarios no podría acceder ni utilizar Internet, sus servicios y aplicaciones. Estas aplicaciones incluyen el correo electrónico y la World Wide Web (Red Mundial). Vale la pena recordar que las direcciones de correo electrónico contienen los nombres de dominio después del símbolo "@". Los usuarios finales de Internet suelen utilizar nombres de dominio cuando acceden a los navegadores web, al correo electrónico y a las aplicaciones móviles. También utilizan nombres de dominio cuando crean cuentas en línea para servicios en Internet. La mayoría de los usuarios finales utilizan nombres de dominio para acceder al contenido publicado por otros. Algunos de ellos también registran un nombre de dominio para publicar su propia información a través de los sitios web.

 

Rinalia Abdul Rahim es miembro del Panel de Generación del Código de Escritura Árabe para elaborar las Reglas para la Generación de Etiquetas y del Grupo de Acción sobre IDNs en Árabe. Anteriormente, fue Copresidenta del Grupo de Trabajo sobre IDNs de At-Large, el cual se enfoca en cuestiones de IDN que son de interés para los usuarios individuales de Internet en todo el mundo. Ella también es miembro de la Junta Directiva de la ICANN y del Grupo de Trabajo de la Junta sobre IDNs y Variantes.


1 ASCII significa Código Estadounidense Estándar para el Intercambio de Información.

2 http://www.iso.org/iso/countrycodes/countrycodes

3 El juego de caracteres ASCII originales permitidos en los nombres de dominio incluían las letras a-z, dígitos y guiones. En el nivel superior, los nombres de dominio tienen una restricción especial en cuanto a que sólo pueden contener letras y no así dígitos o guiones.

4 https://www.icann.org/news/announcement-2010-05-05-en

5 https://www.icann.org/resources/pages/string-evaluation-completion-2014-02-19-en.

6 Dewan Bahasa dan Pustaka, Daftar Kata Bahasa Melayu-Rumi-Sebutan Jawi (2001); Registro de Dominio MYNIC/.MY, Tabla de idioma jawi presentada al Repositorio de la IANA (2009); Registro de Dominio MYNIC/.MY, Informe del Nombre de Dominio Internacionalizado para Malasia: Cuestiones lingüísticas del jawi, versión 1.0 (2009); Normas de Malasia, Norma de Malasia sobre Tecnologías de la Información: Conjunto de caracteres del código jawi para el intercambio de información (2012).

7 Normas de Malasia, Norma de Malasia sobre Tecnologías de la Información: Conjunto de caracteres del código jawi para el intercambio de información (2012).

8 RFC (Solicitud de Comentarios) 1123 y RFC6912 del Grupo de Trabajo en Ingeniería de Internet (IETF)

9 Panel de Integración de las Reglas para la Generación de Etiquetas de la Zona Raíz, MSR-1-Annotated-non-CJK-Tables-20140606, páginas 32-38 (https://www.icann.org/en/system/files/files/msr-non-cjk-06jun14-en.pdf [PDF, 1.86 MB]).

10 https://www.ethnologue.com/enterprise-faq/how-many-languages-world-are-unwritten

11 https://www.icann.org/en/system/files/files/draft-lgr-procedure-20mar13-en.pdf [PDF, 1.39 MB]

12 Consulte http://newgtlds.icann.org/en/program-status/delegated-strings para un listado progresivo de los gTLDs que están siendo delegados en la raíz.

13 https://www.icann.org/resources/pages/universal-acceptance-2012-02-25-en

Rinalia Abdul Rahim