يذهب جائزة تورينج إلى رواد الذكاء الاصطناعي أندرو بارتو وريتشارد سوتون

في عام 1977 ، بدأ أندرو بارتو ، كباحث في جامعة ماساتشوستس ، أمهيرست ، في استكشاف نظرية جديدة مفادها أن الخلايا العصبية تصرفت مثل مذهب المتعة. كانت الفكرة الأساسية هي أن الدماغ البشري كان مدفوعًا بمليارات من الخلايا العصبية التي تحاول كل منها زيادة المتعة وتقليل الألم.
بعد مرور عام ، انضم إليه باحث شاب آخر ، ريتشارد سوتون. عملوا معًا على شرح الذكاء البشري باستخدام هذا المفهوم البسيط وقاموا بتطبيقه على الذكاء الاصطناعي. وكانت النتيجة هي “التعلم التعزيز” ، وهي وسيلة لنظم الذكاء الاصطناعى للتعلم من المكافئ الرقمي للمتعة والألم.
في يوم الأربعاء ، أعلنت جمعية آلات الحوسبة ، أكبر جمعية للمحترفين في العالم في العالم ، أن الدكتور بارتو والدكتور سوتون قد فازوا بجائزة تورينج لهذا العام عن عملهم في تعلم التعزيز. غالبًا ما تسمى جائزة تورينج ، التي تم تقديمها في عام 1966 ، جائزة نوبل للحوسبة. سيشارك العلماء جائزة مليون دولار تأتي مع الجائزة.
على مدار العقد الماضي ، لعب التعلم التعزيز دورًا حيويًا في صعود الذكاء الاصطناعي ، بما في ذلك تقنيات الاختراق مثل جوجل ألفاغو و Openai’s ChatGPT. كانت التقنيات التي عملت هذه الأنظمة متجذرة في عمل الدكتور بارتو والدكتور سوتون.
وقال أورين إتيزيوني ، أستاذ فخري في علوم الكمبيوتر بجامعة واشنطن والرئيس التنفيذي المؤسس لمعهد ألين للذكاء الاصطناعي: “إنهم رواد بلا منازع للتعلم التعزيز”. “لقد ولدوا الأفكار الرئيسية – وكتبوا الكتاب حول هذا الموضوع.”
لا يزال كتابهم ، “التعلم التعزيز: مقدمة” ، والذي تم نشره في عام 1998 ، هو الاستكشاف النهائي لفكرة يقول العديد من الخبراء إنه بدأ فقط في تحقيق إمكاناته.
لقد درس علماء النفس منذ فترة طويلة الطرق التي يتعلم بها البشر والحيوانات من تجاربهم. في الأربعينيات من القرن الماضي ، اقترح عالم الكمبيوتر البريطاني الرائد آلان تورينج أن الآلات يمكن أن تتعلم بنفس الطريقة.
لكن الدكتور بارتو والدكتور سوتون هو الذي بدأ في استكشاف الرياضيات حول كيفية عمل ذلك ، وقد اقترح على نظرية أ. هاري كلوبف ، عالم الكمبيوتر الذي يعمل في الحكومة. واصل الدكتور بارتو بناء مختبر في UMass Amherst مكرسًا للفكرة ، بينما أسس الدكتور سوتون نوعًا مماثلًا من المختبر في جامعة ألبرتا في كندا.
وقال الدكتور سوتون ، وهو أيضًا عالم أبحاث في شركة كين تيشيلز ، وهي شركة ناشئة منظمة العفو الدولية ، وزميلًا في معهد ألبرتا للآلة الاستخباراتية ، وهو أحد عالم أبحاث في كندا الثلاثة في كندا: “إنها فكرة واضحة عندما تتحدث عن البشر والحيوانات”. “كما أحياها ، كان عن الآلات.”
ظل هذا بمثابة مطاردة أكاديمية حتى وصول ألفاغو في عام 2016. يعتقد معظم الخبراء أن 10 سنوات أخرى ستمر قبل أن يقوم أي شخص ببناء نظام منظمة العفو الدولية يمكنه التغلب على أفضل اللاعبين في العالم في لعبة Go.
ولكن خلال مباراة في سيول ، كوريا الجنوبية ، فاز ألفاغو على لي سيدول ، أفضل لاعب في العقد الماضي. كانت الحيلة هي أن النظام قد لعب ملايين الألعاب ضد نفسه ، والتعلم عن طريق التجربة والخطأ. لقد تعلمت أي تحركات جلبت النجاح (المتعة) والتي جلبت الفشل (الألم).
قاد فريق Google الذي بنى النظام ديفيد سيلفر ، الباحث الذي درس التعلم التعزيز في عهد الدكتور سوتون في جامعة ألبرتا.
لا يزال العديد من الخبراء يتساءلون عما إذا كان التعلم التعزيز يمكن أن يعمل خارج الألعاب. يتم تحديد أرباح اللعبة من خلال النقاط ، مما يجعل من السهل على الآلات التمييز بين النجاح والفشل.
لكن التعلم التعزيز لعب أيضًا دورًا أساسيًا في chatbots عبر الإنترنت.
قبل إصدار ChatGPT في خريف عام 2022 ، استأجر Openai مئات الأشخاص لاستخدام نسخة مبكرة وتقديم اقتراحات دقيقة يمكن أن تصقل مهاراتها. لقد أظهروا chatbot كيفية الرد على أسئلة معينة ، وتصنيف إجاباته وتصحيح أخطائه. من خلال تحليل هذه الاقتراحات ، تعلمت Chatgpt أن تكون chatbot أفضل.
يطلق الباحثون هذا “التعلم التعزيز من ردود الفعل البشرية” ، أو RLHF وهو أحد الأسباب الرئيسية التي يستجيب لها chatbots اليوم بطرق مشابهة بشكل مدهش.
(رفعت صحيفة نيويورك تايمز دعوى قضائية ضد Openai وشريكها ، Microsoft ، بسبب انتهاك حقوق الطبع والنشر لمحتوى الأخبار المتعلقة بأنظمة الذكاء الاصطناعي. نفى Openai و Microsoft هذه المطالبات.)
في الآونة الأخيرة ، طورت شركات مثل Openai و Deepseek المبدئية الصينية شكلاً من أشكال التعلم التعزيز الذي يسمح لـ Chatbots بالتعلم من أنفسهم-كما فعل Alphago. من خلال العمل من خلال العديد من مشاكل الرياضيات ، على سبيل المثال ، يمكن لـ chatbot معرفة الأساليب التي تؤدي إلى الإجابة الصحيحة والتي لا تفعل ذلك.
إذا كرر هذه العملية بمجموعة كبيرة من المشكلات ، فيمكن أن يتعلم الروبوت تقليد الطريقة التي يسببها البشر – على الأقل في بعض النواحي. والنتيجة هي ما يسمى أنظمة التفكير مثل Openai’s O1 أو Deepseek’s R1.
يقول الدكتور بارتو والدكتور سوتون إن هذه الأنظمة تلمح إلى الطرق التي ستتعلم بها الآلات في المستقبل. في النهاية ، يقولون ، إن الروبوتات المشبعة بمنظمة العفو الدولية ستتعلم من التجربة والخطأ في العالم الحقيقي ، كما يفعل البشر والحيوانات.
قال الدكتور بارتو: “تعلم السيطرة على الجسم من خلال التعلم التعزيز – هذا أمر طبيعي للغاية”.