ar

الاحتفال بأحد أهم الإنجازات التي قادها المجتمع في تمكين نطاقات المستوى الأعلى ذات اللغات المتعددة

2 مارس 2016

Sarmad HussainSarmad Hussain, Sr Director IDN & UA Programs

بالإضافة الى لغات الأمم المتحدة الست، هذا المحتوى متوفر أيضاً باللغات

null

في 2 مارس 2016، أصبح الإصدار الأول من قواعد استخراج المسميات لمنطقة الجذر (LGR-1) متاحة. وتدعم قواعد استخراج المسميات لمنطقة الجذر النص العربي، وسوف تدعم الإصدارات المستقبلية نصوصًا إضافية. ويتبع هذا الإنجاز مقترحات قواعد استخراج المسميات لمنطقة الجذر التي قدمها كل من المجتمع العربي والأرميني المستخدم لتلك النصوص في نوفمبر 2015.

علمًا بأن إقرار أول قواعد لاستخراج تسميات منطقة الجذر تعد خطوة هامة على طريق تطوير إنترنت متعدد اللغات. وتوفر هذه القواعد طريقة منفتحة وشفافة في تحديد صحة ومتغيرات أسماء نطاقات المستوى الأعلى (TLD) أو مسمياتها، وذلك في النصوص العالمية المتعددة ونظم الكتابة المختلفة. وجاءت قواعد استخراج المسميات لمنطقة الجذر نتيجة العمل الجاد لهيئة استخراج النصوص العربية المستندة إلى المجتمع، بالإضافة إلى هيئة التكامل والعديد من المشاركين الآخرين. ويعود العمل بالنفع على مستخدمين الإنترنت في الوقت الحالي وفي المستقبل ممن يستخدمون النص العربي وذلك من خلال تسهيل تصفح الويب، ويساعد ذلك أيضًا في التغلب على الارتباك ومشكلات الأمن في استخدام نظام أسماء النطاقات - لاسيما نطاقات المستوى الأعلى.

وأود أن أتقدم بالتهنئة إلى جميع من شارك في تحقيق هذه الخطوة الأولى الهامة!

رحلة إلى قواعد استخراج المسميات لمنطقة الجذر: هيئة استخراج النص العربي

بدأ فريق عمل أسماء النطاقات العربية المدوّلة (TF-AIDN) المستند إلى المجتمع في التنظيم في النصف الثاني من عام 2013 وبدأ رسميًا في العمل تحت مسمى هيئة استخراج النص العربي في فبراير 2014. وتعد اللغة العربية واحدة من أكثر النصوص تعقيدًا في فحصها نظرًا لاستخدامه في العديد من اللغات المختلفة عبر كل من آسيا وأفريقيا، وهو ما أدى إلى وجود تنوعات عدة في شكل حروفها واستخدام النص. أما التنوعات الطفيفة في الحروف فتبدو متشابهة بالنسبة للمستخدمين غير الخبراء - حتى داخل مجتمع النص العربي - من غير الملمين بعمق استخدام النص العربي، وهو ما يؤدي إلى ارتباك في المسميات. على سبيل المثال، قد يختلط على المستخدمين كلمة کتاب (kitab،) بكلمة ڪتاب، حيث تفسر الكلمة الأخيرة على أنها تنوع أسلوبي. وهذه التنوعات تضيف إلى التعقيد المتأصل في النص تعقيدًا آخر، ذلك أن النص يحتوي بالفعل على أشكال خطية للحروف تعتمد على السياق بالإضافة إلى العديد من العلامات المتحدة معها من أجل الإشارة إلى كل من محتوى الحروف الصحيحة والأحرف المعتلة.

وحيث إن النص العربي متنوع إلى ذاك الحد على الصعيد الجغرافي واللغوي، فإن التحدي الأول للأعضاء الأوائل في هيئة استخراج النص العربي تمثلت في تعيين والاستعانة بخبراء ممثلين من مجموعة متنوعة من فروع العمل، بما في ذلك علم اللغة والتكنولوجيا والسياسة ومجتمع المستخدمين النهائيين. وقد عملت هذه المجموعة مع فريق المشاركة العالمية لأصحاب المصلحة في ICANN من أجل تعيين إجمالي 33 عضوًا، يمثلون 21 دولة - وهو تنوع مؤثر لمستخدمي النصوص العربية!

أما الخطوة التي تلت ذلك فتمثلت في عملية تطوير امتدت على مدار ثمانية عشر شهرًا واشتملت على آلاف الرسائل الإلكترونية ومعدلات الاجتماعات المتاحة على الإنترنت، وكمية كبيرة من المناقشات المباشرة، وبعد من التسويات اللغوية الصعبة والكثير من العمل الجاد. وفي العملية التي انتهجتها هيئة استخراج النص العربي للوصول إلى أول قواعد لاستخراج المسميات، فقد أنجزت ثلاث مهمات رئيسية:

  1. تحليل نقاط رموز يونيكود من أجل تضمينها.

    كان على المجموعة كمهمة أولى لها تحديد ما هي نقاط الأكواد التي يجب السماح باستخدامها عن تشكيل المسميات. وأول النقاط التي بدأت بها هيئة التكامل هي إعداد قائمة قصيرة، والتي لا تزال تحتوي على أكثر من 200 نقطة أكواد. وقد اشتمل هذا الجهد على البحث عن المصادر وتوثيقها من أجل التحقق من أن كل نقطة كود تم استخدامها بلغة معاصرة وحية، وإن لم يكن الأمر كذلك، فيتم استبعادها. وقد كانت هذه مهمة صعبة، لاسيما في حالات المجتمعات التي لم يتم توثيق النص الخاص بها لأن الدول الخاصة بها تستخدم نصوصًا أخرى على المستوى الرسمي، مثل السريلية واللاتينية. وقد تم العثور على أثملة لتلك الحالات في كل من آسيا وأفريقيا.

  2. تعريف متغيرات نقاط الأكواد.

    كان من الصعب تحديد ما يمكن أن يكون متغيرًا في النص العربي، حيث هناك العديد من الطرق التي يمكن لمجتمع النصوص النظر من خلالها لمقابل نقطتي أكواد، بما في ذلك الحروف المتشابهة والتنوعات الأسلوبية ومكان واتجاه النقاط وغيرها من العلامات. بالإضافة إلى ذلك، فإن بعض المتغيرات مرتبطة على الصعيد الدلالي لكن لها أشكال غير مرتبطة من حيث الرسم، وهو ما يحدث بسبب السياقات الثقافية واعتبارات الأصوات الكلامية. وفي حين انتهجت هيئة استخراج النص العربي أسلوبًا تحرريًا في تعريف المتغيرات من أجل التغلب على ارتباك المستخدم النهائي، إلا أنها اضطرت أيضًا إلى تقليل المسميات المتنوعة "القابلة للتخصيص" والتي استخرجت باستخدام هذه النقاط الكودية المتنوعة بسبب تحفّظ منطقة الجذر. وقد كان هذا تحديًا حقيقيًا، حيث عنى ذلك ضرورة قيام المجتمعات المختلفة بالتوصل إلى تسوية فيما يخص تعبيراتها اللغوية.

  3. تحديد قواعد تقييم المسميات الكلية التي تجيز فقط المسميات الصالحة.

    ظهر تحدٍ جديد أثناء إنشاء قواعد استخراج المسميات. ولم يكن من الواضح كيفية تحديد القواعد اللغوية لتوثيق المسميات في مستوى النصوص. حيث تستند قواعد التهجئة والمعايير الأخرى على اللغات وليس النصوص، ولا يجوز أن تنطبق على مسميات النطاقات لأن المسميات غير مقتصرة على الكلمات الحقيقة في أي لغة. وقد تعامل هيئة استخراج النصوص العربية على هذا التحدي من خلال تحديد مدى القدرة على استخدام المسميات كمعايير مقيدة. على سبيل المثال، قامت بوضع قواعد أدت إلى إبطال المسميات التي تطلبت التحويل بين لوحات مفاتيح اللغات المختلفة أثناء استخدام النص العربي.

وماذا بعد ذلك؟ يمكن الآن تحديد المتغيرات القابلة للتخصيص لنطاقات المستوى الأعلى بالنص العربي. ويجب على المجتمع الاتفاق على كيفية تنفيذ نطاقات TLD هذه وتفويضها. وهذا العمل قيد التنفيذ الآن وسوف تطلب ICANN في القريب تعقيبات وآراء المجتمع حول هذه الآليات التي سوف يتم استخدامها من أجل إدارة نطاقات TLD المختلفة.

تتواصل رحلة قواعد استخراج المسميات

يعمل في الوقت الحالي متطوعون من المجتمع للنصوص ونظم الكتابة الأخرى بعناية من أجل إكمال مقترحات LGR للنصوص الخاصة بهم. وفيما يلي ملخص قصير:

  • كما أكملت هيئة استخراج النصوص الأرمينية عملها وقدمت مقترحًا في نوفمبر 2015، وتنتهي في وقت قياسي مدته ستة أشهر. وعلى الرغم من ذلك، بسبب المتغيرات المتشابهة في الأحرف مع النصوص السريلية واليونانية واللاتينية، فقد أجلت هيئة التكامل عملية التكامل - وسوف يساعد عمل هيئات الاستخراج الأخرى في تحقيق فهم أفضل لتأثير هذه التفاعلات.
  • وتستخدم المجتمعات الصينية واليابانية والكورية مزيجًا من النصوص من أجل كتابة النصوص الخاصة بها. وتقوم هيئات الاستخراج بتحليل هذه اللغات بشكل منفصل، وتقوم أيضًا بتنسيق الجهود من أجل ضمان حل مشترك لضم ومكاملة نص لغة الهان، والتي يشاركونها جميعًا.
  • وقد أظهرت كل من مجتمعات نص الخمير واللاوية والتايلندية تقدمًا كبيرًا. وتجري هيئات استخراج الخمير واللاوية مناقشات قوية مع هيئة التكامل من أجل الانتهاء من قواعد التقييم المعقدة للمسميات الكلية المستندة إلى النص. وهذه الميزة مشتركة مع النصوص المستمدة من نظام الكتابة البراهمية المعقدة.
  • كما تخوض المجتمعات السريلية واليونانية واللاتينية مراحل متنوعة من التحليلات الخاصة بهم. وبمجرد انتهائهم من أعمالهم الداخلية، فسوف يبدأون في التنسيق من أجل الانتهاء من المتغيرات المتعددة النصوص فيما بينهم ومع نص الأرمينية.
  • وتم تشكيل هيئة استخراج لكل من الأثيوبية والبراهمية الجديدة. كما بدأت المجتمعات عملها وهي الآن في طور تعلّم متطلبات العملية. ولدى هيئة استخراج البراهمية الجديدة مهمة معقدة في الوقت الحالي، حيث تعمل بشكل متزامن على تسعة نصوص مختلفة للمنطقة.
  • ويتواصل فريق عمل ICANN مع مجتمعات النصوص الجورجية والعبرية والسنهالية والتعانية من أجل تشجيعهم على تنظيم وبدء العمل على مقترحات LGR الخاصة بهم.

حالة العمل على قواعد استخراج المسميات لمنطقة الجذر بمعرفة هيئة الاستخراج (في مارس 2016)

Bar graph showing status of work on Root Zone LGR by the Generation Panels (in March 2016)

ومع انتهاء مجتمعات النصوص هذه من مقترحاتها، فسوف يتم تضمينها بشكل متزايد في الإصدارات اللاحقة من قواعد LGR، بما يسمح للمجتمعات المعنية تحديد صحة المسميات ومتغيراتها بهذه النصوص.

وأنا سعيد بالتقدم الحادث حتى اليوم وأتطلع إلى إكمال المزيد من مقترحات LGR. وأعبر عن امتناني على وجه الخصوص لجميع المتطوعين الذين يفهمون أهمية هذا المشروع وكرسوا ذلك العمل الشاق تجاه تحقيق وتنفيذ إنترنت متعدد اللغات.

للحصول على مزيد من المعلومات حول قواعد استخراج المسميات، برجاء قراءة المدونات حول قواعد استخراج مسميات منطقة الجذر –مقدمة إلى قواعد استخراج مسميات منطقة الجذر، والتعاون المطلوب وأيضًا التحديات التي تمت مواجهتها. للحصول على مزيد من المعلومات حول أعمال برنامج IDN في ICANN، بادر بزيارة icann.org/idn أو مراسلة البريد الإلكتروني IDNProgram@icann.org.

Sarmad Hussain
Sarmad Hussain
Sr Director IDN & UA Programs

Sarmad Hussain

Read biographyRead biography