ضع في اعتبارك لغتك: المعركة من أجل التنوع اللغوي في الذكاء الاصطناعي

بفضل نظاراته العبقري غريب الأطوار وسماعات الرأس على طراز Ted-Talk ، نظر Sundar Pichai مباشرة من حاضنة وادي السيليكون.
في ذلك الاثنين ، 10 فبراير ، تولى الرئيس التنفيذي لشركة Google المرحلة في قمة عمل الذكاء الاصطناعي في باريس. من منصة القصر الكبرى ، بشرت عصرًا ذهبيًا جديدًا من الابتكار.
“باستخدام تقنيات الذكاء الاصطناعى ، أضفنا أكثر من 110 لغة جديدة إلى جوجل ترجمة العام الماضي ، تحدثت بنصف مليار شخص في جميع أنحاء العالم”. “هذا يصل إلى إجمالي 249 لغة ، بما في ذلك 60 لغة أفريقية – المزيد في المستقبل.”
تم تسليم بيانه في رتابة ، بالكاد مسجل بين الحاضرين في القمة – جمعية لقادة العالم والباحثين والمنظمات غير الحكومية والمديرين التنفيذيين للتكنولوجيا.
لكن بالنسبة لدعاة التنوع اللغوي في الذكاء الاصطناعي ، حققت كلمات السيد Pichai انتصارًا هادئًا-واحدة تحققت بعد عامين من المفاوضات المكثفة ، وراء الكواليس في عالم الدبلوماسية الرقمية.
وقال جوزيف نكالو نغولا ، مستشار السياسة الرقمية في مهمة الأمم المتحدة للمنظمة الدولية في LA Francophonie ، في نيويورك: “يُظهر أن الرسالة تمر بها وتستمع شركات التكنولوجيا”.
الفجوة اللغوية
كان خطاب السيد Pichai بعيد كل البعد عن الأخطاء اللغوية من الذكاء الاصطناعي المبكرة – فرع من الذكاء الاصطناعي القادر على إنشاء محتوى أصلي ، من نص إلى صور وموسيقى ورسوم متحركة.
عندما أطلقت Openai Chatgpt في عام 2022 ، اكتشف مكبرات الصوت غير الإنجليزية حدوده بسرعة.
إن الاستعلام باللغة الإنجليزية من شأنه أن يولد استجابة مفصلة وغنية بالمعلومات. نفس المطالبة باللغة الفرنسية؟ فقرتان ، يليهما اعتذار خجول: “آسف ، لم أتدرب على ذلك ،” أو ، “لم يتم تحديث النموذج الخاص بي بعد هذا التاريخ”.
تكمن مثل هذه الفجوة في الميكانيكا المعقدة لأدوات الذكاء الاصطناعى ، والتي تعتمد على ما يسمى نماذج اللغة الكبيرة (LLMS) مثل GPT-4 أو Meta’s LAMA أو Google’s Gemini لهضم درجات شاسعة من بيانات الإنترنت التي تساعدهم على فهم النص وتوليده.
لكن الإنترنت نفسه أنجلوفون بأغلبية ساحقة. في حين أن 20 في المائة فقط من سكان العالم يتحدثون الإنجليزية في المنزل ، إلا أن ما يقرب من نصف بيانات التدريب لنماذج الذكاء الاصطناعى الرئيسية هي باللغة الإنجليزية.
حتى اليوم ، تحسنت استجابات Chatgpt باللغة الفرنسية أو البرتغالية أو الإسبانية لكنها تظل أقل إضاءة من نظرائهم في اللغة الإنجليزية.

تركيز أكثر وضوحا
وقال السيد Nkalwo Ngoula: “حجم المعلومات المتاحة باللغة الإنجليزية أكبر بكثير ، لكنه أيضًا أكثر تحديثًا”. بشكل افتراضي ، يتم تصور نماذج الذكاء الاصطناعى وتدريبها ونشرها باللغة الإنجليزية ، تاركة لغات أخرى تكافح للحاق بالركب.
الفجوة ليست مجرد كمية. منظمة العفو الدولية ، عندما تحرم من التدريب القوي بأي لغة معينة ، تبدأ في “الهلوسة” – توليد إجابات غير صحيحة أو سخيفة بسلطة مقلقة – مثل الصديق المفرط في طريقه إلى طريق Trivia Night.
يتكون هلوسة منظمة العفو الدولية الكلاسيكية من الاستجابة لطلب الحصول على تفاصيل السيرة الذاتية عن شخص مشهور من خلال اختراع جائزة نوبل أو الخروج بمهنة متوازية غريبة ، كما في هذا المثال الذي تم إنشاؤه بواسطة ChatGPT ، بناءً على طلب من أخبار الأمم المتحدة:
أخبار الأمم المتحدة: “من هو فيكتور هوغو؟”
الهلوسة منظمة العفو الدولية: “كان فيكتور هوغو ، الكاتب الفرنسي في القرن التاسع عشر ، أيضًا رائد فضاء عاطفي ساهم في التصميم المبكر لمحطة الفضاء الدولية.” 🚀😆
صندوق أسود
“إنه صندوق أسود يمتص بيانات” ، أوضح السيد نكالو نغولا. “قد تكون النتائج متماسكة رسميًا ومنظمًا منطقياً ، ولكن في الواقع ، يمكن أن تكون غير دقيقة إلى حد كبير.”
ما وراء الأخطاء الواقعية ، تميل الذكاء الاصطناعي إلى تسطيح الثراء اللغوي. تكافح chatbots مع لهجات إقليمية وتغيرات اللغة ، مثل اللغات الفرنسية أو الكريول التي يتم التحدث بها في هايتي ومنطقة البحر الكاريبي الفرنسي.
غالبًا ما يشعر الفرنسيون المولودون بمنظمة العفو الدولية ، وتجريده من الفروق الدقيقة الأسلوبية.
“موليير ، ليوبولد سيدار سينجور ، إيمي سيسير ، مونغو بيتي – سيتحولون جميعًا إلى مقابرهم إذا رأوا كيف يكتب منظمة العفو الدولية الفرنسية اليوم” ، قال السيد نكالو نغولا.
تمر القضية بشكل أعمق في البلدان متعددة اللغات ، كما هو الحال في الكاميرون الأصلي للدبلوماسي ، حيث يتحدث الشباب عادةً كامفرانجليس – مجموعة هجينة من اللغات الفرنسية والإنجليزية والبيدجين والمحلية.
وقال “أشك في أن الشباب يمكن أن يطلبوا من الذكاء الاصطناعى شيئًا ما في كامفرانجليس والحصول على استجابة ذات مغزى”. تعبيرات مثل “Je Yamo Ce Pays” (أحب هذا البلد) أو “Réponds-Moi Sharp-sharp” (الإجابة بسرعة) من المحتمل أن تترك نماذج منظمة العفو الدولية.

حملة الظل في لا فرانكوفوني
منظمة السيد نكالو نغولا ، لا فرانكوفوني – التي تجمع 93 ولاية وحكومات حول استخدام الفرنسية ، التي تمثل أكثر من 320 مليون شخص في جميع أنحاء العالم – جعلت هذه الفجوة اللغوية محورًا من استراتيجيتها الرقمية.
توجت جهود المجموعة في شركة الأمم المتحدة العالمية الرقمية في العام الماضي ، وهو إطار لحوكمة الذكاء الاصطناعى التي تبنتها الدول الأعضاء. منذ عام 2023 فصاعدًا ، استفادت La Francophonie من شبكتها الدبلوماسية – بما في ذلك مجموعة سفراء الفرنكوفون المؤثرة في الأمم المتحدة – لضمان أن التنوع اللغوي أصبح مبدأ أساسي في صناعة سياسات الذكاء الاصطناعي.
على طول الطريق ، ظهر حلفاء غير متوقعين. انضم مجموعات Lusophone والدعوة من أصل إسباني إلى المعركة ، وحتى واشنطن وقفت مع قضيتهم. “دافعت الولايات المتحدة عن إدراج اللغة في تطور الذكاء الاصطناعي” ، أشار السيد نكالو نغولا.
دفعت دفعهم. يتعرف المدمجة الرقمية العالمية النهائية بشكل صريح على التنوع الثقافي واللغوي – وهي قضية تم دفنها في البداية في إطار مناقشات أوسع حول إمكانية الوصول. وقال “كان هدفنا هو إحضاره إلى الواجهة”.
وصلت الحركة حتى وادي السيليكون. في قمة الأمم المتحدة للمستقبل في سبتمبر 2024 ، حيث تم اعتمادها رسميًا ، فاجأ Sundar Pichai ، الرئيس التنفيذي لشركة Google ، الكثيرين من خلال التأكيد على الحاجة إلى منظمة العفو الدولية لتوفير الوصول إلى المعرفة العالمية بلغات متعددة.
“نحن نعمل على نحو 1000 من اللغات الأكثر منطقية في العالم” ، تعهد – وهو التزام أعاد تأكيده في باريس بعد أشهر.
حدود المدمجة الرقمية العالمية
على الرغم من هذه المكاسب ، تبقى التحديات. من أهمها الرؤية. ويحذر السيد نكالو نغولا: “غالبًا ما يتم دفن محتوى الفرنكوفون بواسطة خوارزميات منصة”.
يعطي عمالقة البث مثل Netflix و YouTube و Spotify إعطاء الأولوية ، مما يعني أن محتوى اللغة الإنجليزية يهيمن على نتائج البحث.
وقال “إذا تم النظر في التنوع اللغوي حقًا ، فيجب أن يرى مستخدم يتحدث الفرنسية أفلامًا باللغة الفرنسية في الجزء العلوي من توصياتهم”.
إن الهيمنة الساحقة للغة الإنجليزية في بيانات التدريب على الذكاء الاصطناعى هي عقبة أخرى بتجميعها من قبل المدمجة ، والتي تغفل أيضًا أي إشارة إلى اتفاقية اليونسكو حول التنوع الثقافي – وهو إشراف ، وفقًا للسيد نكالو نغولا ، يجب تصحيحه.
“يجب أن يكون التنوع اللغوي العمود الفقري للدعوة الرقمية لـ La Francophonie” ، أصر Nkalwo Ngoula.
بالنظر إلى وتيرة تطوير الذكاء الاصطناعي ، لا يمكن أن تأتي هذه التغييرات لحظة في وقت مبكر جدًا.