ar

التنوع اللغوي في جذر الإنترنت: مسألة النص العربي والجاوي

8 سبتمبر 2015

Rinalia Abdul Rahim

بالإضافة الى لغات الأمم المتحدة الست، هذا المحتوى متوفر أيضاً باللغات

تمثيل لغات متعددة ونصوص في جذر الإنترنت

تعمل هيئة الإنترنت للأرقام والأسماء المُخصصة (ICANN) على إدارة منطقة الجذر للإنترنت العالمي. وتتألف منطقة الجذر من قائمة موثوقة وسجل بكافة نطاقات المستوى الأعلى (TLDs). ومنذ بداية الإنترنت، تم السماح فقط بمجموعة فرعية من نطاقات المستوى الأعلى TLDS القائمة على النصوص اللاتينية في منطقة الجذر. وهذا نظراً إلى المصدر وتصميم ميراث نظام اسم النطاق (DNS). وقد تم تصميم نظام اسم النطاق DNS في الأساس للتعامل مع النص اللاتيني بصيغة نظام الترميز المعياري الأمريكي لتبادل المعلومات ASCII.1 تم تنفيذ النظام التقني في 2010 لتفعيل إدخال أسماء النطاق في نصوص ولغات متعددة في المستوى الأعلى من نظام اسم النطاق DNS دون زعزعة استقرار الإنترنت.

حيث توجد أربعة أنواع من نطاقات المستوى الأعلى TLDS والتي تعنى بمستخدمي الإنترنت وهي: نطاق المستوى الأعلى لرمز البلد (ccTLDs) ونطاقات المستوى الأعلى العام (gTLDs) ونطاقات المستوى الأعلى العام لرمز البلد الخاص باسم النطاق المدوّل (IDN ccTLDs) ونطاقات المستوى الاعلى العام الخاص باسم النطاق المدوّل (IDN gTLDs). وتمثل نطاقات المستوى الأعلى TLDs التي تندرج ضمن فئة رموز البلد أسماء البلدان والأقاليم حسبما هو مقرر في المعايير الدولية ISO3166-1.2 تتعلق نطاقات المستوى الأعلى TLDs العام بالأسماء أو تمثيل الأسماء أكثر من تلك المرتبطة بالأسماء الرسمية للبلدان والأقاليم. وتشير أسماء النطاق المدوّل (IDNs) إلى أسماء النطاق في نصوص ولغات متعددة تتخطى مجموعة رموز نظام الترميز المعياري الأمريكي لتبادل المعلومات ASCII الأصلي.3 راجع الخانة 1 للحصول على أمثلة نطاقات المستوى الأعلى حسب الفئة.

الخانة 1 - عناوين اسم النطاق وأمثلة لنطاقات المستوى الأعلى حسب الفئة

ما هي عناوين اسم النطاق؟

يتم ترتيب أسماء النطاق حسب التسلسل الهرمي للعناوين من المستوى الأدنى إلى المستوى الأعلى في نظام اسم النطاق (DNS). مثال: en.wikipedia.org. وهنا، يعتبر "org" مسمى اسم نطاق في المستوى الأعلى، بينما يعتبر "wikipedia" مسمى اسم نطاق في المستوى الثاني، أما "en" فهو مسمى اسم نطاق في المستوى الثالث أو الأدنى.

أمثلة عن نطاقات المستوى الأعلى (TLDs) حسب الفئة

ccTLD

.de (Germany) | .et (Ethiopia) | .my (Malaysia) | .pr (Puerto Rico)

IDNccTLD

 (Egypt) | 中国 (China) | भारत (India) | ไทย (Thailand) مصر

gTLD

.com | .org | .ngo | .guru | .bank | .email | .organic | .photography

IDNgTLD

みんな (everyone) | дети (kids) | संगठन (organization) | 世界 (world) | بازار (bazaar) | 삼성 (Samsung) | vermögensberatung (financial advice) | คอม, (com)

نطاق المستوى الأعلى لرمز البلد الخاصة باسم النطاق المدوّل IDN

ولم تكن موجودة حتى عام 2010 حيث كان من الممكن للبلدان تمثيل نطاقات المستوى الأعلى TLDs لرمز البلد في نصوص غير اللغة اللاتينية. أنشأت ICANN عملية التتبع السريع لـ IDN ccTLD لاستيعاب حاجة البلدان لوجود رمز بلدهم ونطاقات المستوى الأعلى TLDs لاسم البلد في نصوص محلية بحيث تعكس قاعدتهم اللغوية.

وكانت المجموعة الأولى من IDN ccTLDs المدرجة في منطقة الجذر باللغة العربية.4 وبمنتصف 2015، وافقت ICANN على 47 من IDN ccTLDs والتي تغطي 15 نص و24 لغة.5 تتصل ثلثي هذه النصوص بمنطقة آسيا والمحيط الهادئ. وكان الطلب الأكبر لـ IDN ccTLDs للنص العربي (38%) ويتبعها السريالية (14.9%) والهان (14.9%) والتاميل (6.4%) والبنغالية (4.3%) - راجع الشكل 1 لمعرفة توزيع كافة طلبات IDN ccTLD. تتميز الهند بتمثيلها أكبر عدد من النصوص (سبعة نصوص بالإجمال) لاسم بلدها، الأمر الذي يعكس التنوع اللغوي الوطني لديها.

الشكل 1 - توزيع طلبات IDN ccTLDs

النصوص المطلوبة

عدد الطلبات

العربية

18

السيريلية

7

الهان (الصينية)

7

التاميل

3

البنغالية

2

الأرمنية

1

الديفنجارية

1

الجورجية

1

اليونانية

1

الكوجراتية

1

الغورموجية

1

الهنغولية

1

السنهالية

1

التيلوغو

1

التايلاندية

1

الإجمالي

47

نطاقات المستوى الأعلى TLDs العام لاسم النطاق المدوّل IDN

ما زال توزيع نطاقات المستوى الأعلى TLDs العام لاسم النطاق المدوّل IDN قيد العمل ويتطلب مشاركة المجتمعات النصية في سائر أنحاء العالم. وينبغي على كل مجتمع لغة يرغب تمثيل نصه بفعالية في الجهود الرامية لتحديد نطاقات المستوى الأعلى TLDs التي سيتم السماح بها في منطقة الجذر المشاركة في عمل اللجان العامة للنصوص. وقد تتخذ المشاركة أشكال عدة مثل التشكيل والدعم وتسهيل اللجان، أو ملائمة أعضاء اللجنة أو تقديم المساهمات أو الملاحظات على اللجان خلال مكالمة ICANN للتعليقات العامة. وظيفة اللجان العامة للنصوص حسب نموذج تعاون أصحاب المصلحة المتعددة من الأعلى إلى الأدنى والذي يجسد ICANN وغيرها من منظمات الإنترنت. ولا بد من اللجان تشكيل خبراء في DNS و Unicode(يونيكود) ونظام أسما النطاق IDNs واللغويات وعمليات اسم النطاق والسياسة من أجل الفعالية. وحيثما لا تتوفر الخبرة، من الممكن حينها طلب المساعدة من ICANN.

وتتحمل اللجان العامة للنصوص مسؤولية وضع الاقتراحات التي تحدد قواعد إنشاء العلامات (LGR) المحددة بالنصوص لمنطقة الجذر. ويتم وضع هذه الاقتراحات استناداً على خبرة كل مجتمع مستخدم لنفس الحروف الأبجدية والمتطلبات لاستخدام نص معين في عناوين IDN TLD. ويتضمن العمل من بين أمور أخرى المرور على كافة رموز النصوص وتحديد أي رمز سيتم السماح باستخدامه في عناوين TLD، الأمر الذي لن يسمح به، وما هي القواعد التي ستطبق لتحديد العناوين السارية ومتبايناتها (إن وجد). بينما يتعين على اللجان العامة تغطية مراجع رموز النصوص سوياً مع نقاط رمز Unicode (يونيكود) المتطابقة لديهم، فإنه يتطلب العمل جهد تطوعي كبير من المجتمعات النصية.

وتعمل ما يقارب 20 من المجتمعات النصية حالياً بفعالية على وضع قواعد إنشاء العلامات لمنطقة الجذر. وتتضمن مجموعة النصوص العربية والأرمنية والبنغالية والصينية والسريالية والديفنغارية والكوجراتية والغورموجية والكانادية والخمير والكورية واللاتينية والمالايالامية والأوريا والتاميل والتيلوغو. ويتركز الجزء الأكبر من العمل على نصوص منطقة آسيا والمحيط الهادئ. ولا يعد هذا الأمر بغريب بالنظر إلى وجود ما يقارب النصف من 3 مليارات مستخدم إنترنت حاليين في تلك المنطقة. ومن المتوقع اتصال المليار المقبل من مستخدمي الإنترنت بالإنترنت بحلول عام 2020. وسيأتي معظمهم من منطقة آسيا والمحيط الهادئ كذلك. وما زال الطلب على استخدام الإنترنت في نصوص ولغات محلية قائم. أما في آسيا، قامت الحكومات بدور أساسي في تسهيل وبدء إطلاق اللجان العامة للنصوص. حيث تدرك هذه الحكومات أهمية إمكانية الوصول واستخدام الإنترنت في النصوص المحلية لسكانهم.

وستطلب اللجان العامة التي تركز النص المشارك في لغات عدة مزيداً من الوقت لإكمال عملها مقارنة باللجان التي تتعامل مع لغة واحدة. على سبيل المثال، تطلبت اللجنة العامة الأرمنية ستة أشهر فقط لإكمال اقتراحها في النص المستخدم باللغة الأرمنية. بينما استغرقت اللجنة العامة العربية 20 شهر تقريباً لإكمال عملها في المقابل. وتعتبر الفترة الزمنية الأطول ضرورية باعتبار أن النص العربي مستخدم في أكثر من 50 لغة في أنحاء إفريقيا والشرق الأوسط وآسيا (وبالأخص غرب آسيا وجنوب آسيا وجنوب شرق آسيا). وكانت اللجنة العامة العربية رائدة في مشروع قواعد إنشاء العلامات لمنطقة الجذر من ناحيتين. وكانت الأولى في تنظيم نفسها للعمل وأسفر عن خبرتها منهجية وقوالب مستخدمة لتوجيه عمل اللجان العامة اللاحقة.

وتم إكمال الاقتراحات المقدمة من اللجان العامة العربية والأرمنية على حد سواء الآن وقامت ICANN بنشره للحصول على المراجعة والتعليقات العامة - راجع الخانة 2 للحصول على روابط لطلبات الحصول على التعليقات العامة. وتشجع مجتمعات اللغة المتأثرة بشدة على الرد وتقديم الملاحظات وذلك لضمان تناول مراجع النصوص لمنطقة الجذر احتياجات لغة المستخدم في الإنترنت.

الخانة 2 - مطالبة ICANN للحصول على التعليقات العامة حول اقتراحات قواعد إنشاء العلامات LGR للجنة النصوص العامة

اقتراح قواعد إنشاء العلامات لمنطقة الجذر الخاصة بالنصوص العربية - https://www.icann.org/public-comments/arabic-lgr-proposal-2015-08-24-en.
(تاريخ الإغلاق: 16 أكتوبر 2015)

اقتراح قواعد إنشاء العلامات لمنطقة الجذر الخاصة بالنصوص الأرمنية - https://www.icann.org/public-comments/proposal-armenian-lgr-2015-07-22-en.
(تاريخ الإغلاق: 31 أغسطس 2015)

يقدم الشكل 2 لمحة عامة بكافة الرموز التي تقترحها اللجنة العامة العربية لتنسيق IDN TLDs في النص العربي. حيث تحدد ما هي الرموز المقترحة لإدماجها وابعادها، والتي سيتم تطبيقها لكافة اللغات التي تستخدم النص العربي.

الشكل 2 - قوائم الـ Unicode(يونيكود) المعنية مع الرموز العربية المقترحة من اللجنة العامة العربية (GP) لقواعد إنشاء العلامات (LGR) لمنطقة الجذر

الأصفر - مقترح من اللجنة العامة العربية لقواعد إنشاء العلامات LGR لمنطقة الجذر
الأزرق - مستبعد من اللجنة العامة العربية
الزهري - مستبعد من الذخيرة القصوى للبدء (MSR)
الأبيض - غير مسموح به حسب IDNA2008 من فريق عمل هندسة الإنترنت IETF


Relevant Unicode Tables with Arabic Characters Proposed by the Arabic Generation Panel (GP) for the Root Zone Label Generation Rules (LGR)

تسلط الخانة 3 الضوء على مسألة النص العربي المحلي في جنوب شرق آسيا (أي، جاوي). تحدد المسألة رموز لغة جاوي المقترحة لاستبعادها من IDN TLDs.

الخانة 3 - مسألة جاوي

تعتبر لغة الجاوي (جاوي) الاسم المحلي للنص العربي المستخدم في لغات جنوب شرق آسيا. وتتضمن هذه اللغات آتشيه وبانجاريس ومالاي ومينانجكاباو وتاوسوغ. وتتضمن البلدان مع سجلات تستخدم لغة جاوي بروناي وإندونيسيا وماليزيا وسنغافورة وتايلند. ومن الممكن إيجاد تباينات لغة جاوي كذلك في دول أخرى في مناطق فرعية. وكانت جاوي ذات مرة نص غالب لجنوب شرق آسيا. وتأثر استخدامها باعتماد الأبجدية اللاتينية بشكل واسع النطاق. وتحتفظ جاوي اليوم بالطابع الرسمي في بروناي وماليزيا. واعتمدت بروناي لغة جاوي باعتبارها إحدى نصيها الرئيسين، بينما تستخدمها ماليزيا باعتبارها نص بديل حيث يخصص لغايات دينية وثقافية وأكاديمية وإدارية عموماً. ويعتبر التطبيق الماليزي الناجح لنطاق المستوى الأعلى TLD لرمز الدولة الخاص باسم النطاق المدوّل IDN في النص العربي (مليسيا.) دلالة لوضع لغة جاوي الرسمي في الدولة. ووضعت اللجنة العامة العربية لغة جاوي واللغة الماليزية بالحسبان في مراجعة نصها لتحديد قواعد إنشاء العلامات لمنطقة الجذر. حيث تكششف الوثيقة الرئيسية المرتبطة بلغة جاوي من ماليزيا عن ما يقارب 50 رمز (ونقاط رمز Unicode (يونيكود) المتطابقة) ذات فائدة في النص العربي.6 تم إدراج ما يقارب كافة هذه الرموز في اقتراح قواعد إنشاء العلامات الخاص باللجنة العامة العربية لمنطقة الجذر. وتم اقتراح استبعاد ثلاثة رموز (راجع القائمة أدناه).

قائمة استبعاد رموز لغة جاوي المقترحة في IDN TLDs للنص العربي

الرمز

نقاط رمز Unicode (يونيكود)

اسم نقاط الرمز وخصائصه

اسم رمز تشفير لغة جاوي7

[مستبعد حسب] - المبرر

۲

06F2

رقمين عربي-هندي ممتد

رقمين عربي-هندي ممتد

[فريق عمل هندسة الإنترنت IETF]8 – لا يسمح بالأرقام في عناوين نطاق المستوى الأعلى TLD.

ڬ

06AC

الحرف العربي ك مع نقطة أعلاه

GAF

[هيئة التكامل]9 - ملايو جاوي قديمة. استخدم ݢ (U+0762) بدلاً من ذلك.

ء

لا يوجد

لا يوجد

ثلاثة أرباع الهمزة العربية

[اللجنة العامة العربية] - لا يوجد تشفير Unicode (يونيكود) وبالتالي ليست مؤهلة للنظر فيها.

ويتم حث مجتمعات اللغة المرتبطة ونصوص لغة جاوي في جنوب شرق آسيا على مراجعة الاقتراح وتقديم الملاحظات عبر عملية التعليقات العامة في ICANN، والذي يفتح لغاية 16 أكتوبر 2015 (https://www.icann.org/public-comments/arabic-lgr-proposal-2015-08-24-en).

القيود التقنية على التنوع اللغوي في الجذر

يعتبر عمل اللجان العامة للنصوص أمر مشجع ويعمل على تقريب العالم إلى فكرة ICANN "عالم واحد، إنترنت واحد." ويوجد اعتراف واسع في ICANN بأن من شأن أسماء النطاقات المدوّلة IDNs زيادة استخدام الإنترنت من غالبية سكان العالم حيث يدعم مجتمع ICANN توزيع أسماء النطاقات المدوّلة IDNs بشدة. وأدى هذا إلى إنشاء برنامج اسم النطاق المدوّل IDN، الأمر الذي دعم عملية التتبع السريع لـ IDN ccTLD التي فعّلت IDNS ccTLDs ومشروع قواعد إنشاء العلامات في منطقة الجذر التي فعّلت IDN TLD العامة.

حيث ينبغي أن يكون الإنترنت الذي يعمل على خدمة العالم متنوع لغوياً، في عالم يحتوي أكثر من سبعة مليار شخص، وأكثر من 7000 لغة حية وأنظمة كتابة متعددة أو نصوص.10 ولأنه تعتبر منطقة الجذر مساحة عالمية مشتركة، يتم تقييد إضافات نطاق المستوى الأعلى TLD حسب مبادئ عملية الجذر المقترحة من فريق عمل هندسة الإنترنت وسياسات ICANN الخاصة بمنطقة الجذر والاستقرار. ويقوم الإجراء المعتمد من ICANN لوضع قواعد إنشاء العلامات لمنطقة الجذر والحفاظ عليها بتقييد الإضافات إلى منطقة الجذر على "أنظمة الكتابة تلك حيثما يوجد اهتمام واضح."11 يتم تشجيع مجتمعات اللغة النشطة على الإنترنت وذات اهتمام واضح بإدخال نصهم إلى منطقة الجذر وبشدة على المشاركة في عملية قواعد إنشاء العلامات الخاصة بنصهم.

تحدي القبول الدولي

بالرغم من كافة الجهود التي تبذلها ICANN ومجتمع أصحاب المصلحة لديها، يوجد عائق واحد رئيسي يعترض طريق الوصول إلى إنترنت متعدد اللغات: القبول الدولي. لقد تطورت نطاقات المستوى الأعلى منذ أن تم إدخالها إلى العالم كما وستواصل التطور مع زيادة تسوع برنامج نطاق المستوى الأعلى TLD العام الجديد.12 ولم تواكب بعض خدمات الإنترنت وتطبيقات البرمجيات ذلك التطور. حيث يجعل هذا الأمر من نطاقات المستوى الأعلى TLDs غير قابلة للاستخدام بالنسبة للمستخدمين وتعيق وصول المستخدم بالأساس إلى المواقع والبريد الإلكتروني والتطبيقات الأخرى - راجع الخانة 4 عن كيفية ارتباط أسماء النطاق بمستخدمي الإنترنت.

وتتضمن تحديات "القبول الدولي" خدمات الإنترنت وتطبيقات البرمجيات دون قبول كتابة نطاقات المستوى الأعلى TLDs في نصوص متعددة اللغات عدا عن عدم قبول نظام الترميز المعياري الأمريكي لتبادل المعلومات ASCII أسماء نطاق المستوى الأعلى TLD التي لا تتجاوز ثلاثة رموز، وعدم دعم إدخال أسماء النطاقات المدوّلة IDNs أو أسماء غير نظام الترميز المعياري الأمريكي لتبادل المعلومات ASCII في البريد الإلكتروني. وفقاً لفريق توجيه القبول الدولي فإن" لم يعي مزودو البرمجيات والخدمة بهذه المشاكل بشكل تاريخي أو لديها سوق صغير أو حافز تنظيمي للاستثمار في حلول من شأنها تحقيق التشغيل بيني حقيقي للبرامج أو التطبيقات."13

ويتطلب حل مشاكل "القبول الدولي" جعل مزودي خدمات الإنترنت ومطوري البرمجيات يدعمون المبادئ التي يجب أن تقبل بكافة أسماء النطاق وعناوين البريد الإلكتروني وتخزينها ومعالجتها وعرضها بأسلوب متناسق وفعّال. حيث يجب جعل نطاقات المستوى الأعلى TLDs صالحة للاستعمال في التطبيقات لدعم مستخدمي الإنترنت في سائر أنحاء العالم بغض النظر عن نصهم أو طوله أو حداثته. وإذا كان من الممكن التغلب على تحدي "القبول الدولي" هذا، فإننا سنتمكن من وجود إنترنت متعدد لغات حقيقي، وبمزيد من الدعم للمحتوى المحلي في سائر أنحاء العالم.

الخانة 4 - أهمية أسماء النطاق للمستخدمين

ما مدى أهمية أسماء النطاق للمستخدمين؟

تتم معالجة موارد الإنترنت عددياً. حيث تسهل أسماء النطاق على الأفراد الوصول إلى هذه الموارد دون الإضطرار إلى حفظ الأرقام. ولن يتمكن غالبية المستخدمين من الوصول واستخدام الإنترنت وخدماته وتطبيقاته دون أسماء النطاق. وتتضمن هذه التطبيقات الشبكة العنكبوتية العالمية والبريد الإلكتروني. ومن الجدير تذكر احتواء عناوين البريد الإلكتروني أسماء النطاق بعد رمز "@". حيث يستخدم مستخدمو الإنترنت النهائيين أسماء النطاق لدى الدخول إلى متصفحات الويب والبريد الإلكتروني وتطبيقات الموبايل. كما ويستخدمون أسماء النطاق لدى إنشاء حسابات الإنترنت للحصول على خدمات على الإنترنت. ويستخدم معظم المستخدمين النهائيين أسماء النطاق للوصل إلى المحتوى المنشور من الآخرين. ويقوم بعضهم كذلك بتسجيل اسم نطاق لنشر معلوماتهم الخاصة عبر مواقع الإنترنت.

ريناليا عبد الرحيمعضوة في اللجنة العامة العربية لقواعد إنشاء العلامات لمنطقة الجذر والقوى العاملة في أسماء النطاقات المدوّلة IDNs العربية. وكانت سابقاً رئيسة بالمشاركة في مجموعة عمل اسم النطاق المدوّل IDN في At-Large والتي تركز على قضايا اهتمام اسم النطاق المدوّل IDN لمستخدمي الإنترنت الفرديين في سائر أنحاء العالم. وهي عضوة أيضاً في مجلس مدراء ICANN ومجموعة عمل مجلس إدارة ICANN على نظام اسم النطاق والمتباينات.


1 تشير ASCII إلى نظام الترميز المعياري الأمريكي لتبادل المعلومات.

2 http://www.iso.org/iso/countrycodes/countrycodes

3 تضمنت مجموعة رمز ASCII الأصل المسموحة في أسماء النطاق الحروف من a-z وأرقام وواصلة. تحتوي أسماء النطاق في المستوى الأعلى قيد خاص بحيث أنه يسمح لها فقط باحتواء أحرف لا أرقام أو واصلة.

4 https://www.icann.org/news/announcement-2010-05-05-en

5 https://www.icann.org/resources/pages/string-evaluation-completion-2014-02-19-en.

6 Dewan Bahasa dan Pustaka، Daftar Kata Bahasa Melayu-Rumi-Sebutan Jawi (2001)؛ سجل نطاق MYNIC/.MY، قائمة لغة جاوي المقدمة إلى ذخيرة IANA (2009)؛ سجل نطاق MYNIC/.MY، تقرير إلى اسم النطاق المدوّل الخاص بماليزيا: قضايا لغة جاوي، إصدار 1.0 (2009)؛ معايير ماليزيا، معايير ماليزيا حول مجموعة معايير رمز تشفير جاوي - تنكولوجيا المعلومات لتبادل المعلومات (2012).

7 معايير ماليزيا، معايير ماليزيا حول مجموعة معايير رمز تشفير جاوي - تنكولوجيا المعلومات لتبادل المعلومات (2012).

8 فريق عمل هندسة الإنترنت (IETF) RFC1123 وRFC6912

9 هيئة تكامل قواعد إنشاء العلامات لمنطقة الجذر، MSR-1-Annotated-non-CJK-Tables-20140606 من الصفحة 32-38 (https://www.icann.org/en/system/files/files/msr-non-cjk-06jun14-en.pdf [PDF، 1.86 ميغابايت]).

10 https://www.ethnologue.com/enterprise-faq/how-many-languages-world-are-unwritten

11 https://www.icann.org/en/system/files/files/draft-lgr-procedure-20mar13-en.pdf [PDF، 1.39 ميغابايت]

12 راجعhttp://newgtlds.icann.org/en/program-status/delegated-strings للقائمة المتداولة بنطاقات المستوى الأعلى TLDs العامة التي يتم تفويضها في الجذر.

13 https://www.icann.org/resources/pages/universal-acceptance-2012-02-25-en

Rinalia Abdul Rahim