كيف قام ديبسيك ببناء الذكاء الاصطناعي بأموال أقل؟

في الشهر الماضي ، تراجعت الأسواق المالية الأمريكية بعد أن قالت شركة ناشئة صينية تدعى Deepseek إنها بنيت واحدة من أقوى أنظمة الذكاء الاصطناعية في العالم باستخدام عدد أقل بكثير من رقائق الكمبيوتر مما اعتقد العديد من الخبراء.
عادةً ما تقوم شركات الذكاء الاصطناعي بتدريب chatbots الخاصة بها باستخدام أجهزة الكمبيوتر العملاقة المليئة بـ 16000 رقائق متخصصة أو أكثر. لكن ديبسيك قال إنه يحتاج فقط إلى حوالي 2000.
كما تم تفصيل مهندسي Deepseek في ورقة بحثية تم نشرها بعد عيد الميلاد مباشرة ، استخدمت الشركة الناشئة العديد من الحيل التكنولوجية لتقليل تكلفة بناء نظامها بشكل كبير. يحتاج مهندسوها إلى حوالي 6 ملايين دولار من قوة الحوسبة الخام ، أي ما يقرب من عُشر ما أنفقت ميتا في بناء أحدث تقنيات الذكاء الاصطناعى.
ماذا فعل ديبسيك بالضبط؟ هنا دليل.
كيف يتم بناء تقنيات الذكاء الاصطناعي؟
تعتمد تقنيات AI الرائدة على ما يسميه العلماء الشبكات العصبية ، والأنظمة الرياضية التي تتعلم مهاراتهم من خلال تحليل كميات هائلة من البيانات.
تقضي أقوى الأنظمة شهورًا في تحليل جميع النصوص الإنجليزية على الإنترنت بالإضافة إلى العديد من الصور والأصوات والوسائط المتعددة الأخرى. وهذا يتطلب كميات هائلة من قوة الحوسبة.
منذ حوالي 15 عامًا ، أدرك باحثو الذكاء الاصطناعي أن رقائق الكمبيوتر المتخصصة تسمى وحدات معالجة الرسومات ، أو وحدات معالجة الرسومات ، كانت وسيلة فعالة للقيام بهذا النوع من تحليل البيانات. شركات مثل Silicon Valley Chipmaker Nvidia صممت هذه الرقائق في الأصل لتقديم الرسومات لألعاب الفيديو الكمبيوتر. لكن GPUS كان لديها موهبة لتشغيل الرياضيات التي تعمل على تشغيل الشبكات العصبية.
نظرًا لأن الشركات تجمعت المزيد من وحدات معالجة الرسومات في مراكز بيانات الكمبيوتر الخاصة بهم ، يمكن أن تحلل أنظمة الذكاء الاصطناعي المزيد من البيانات.
لكن أفضل تكلفة وحدات معالجة الرسومات بحوالي 40،000 دولار ، وتحتاج إلى كميات هائلة من الكهرباء. يمكن أن يؤدي إرسال البيانات بين الرقائق إلى استخدام طاقة كهربائية أكثر من تشغيل الرقائق نفسها.
كيف تمكن ديبسيك من تقليل التكاليف؟
فعلت أشياء كثيرة. وأبرزها ، أنها تبنت طريقة تسمى “مزيج من الخبراء”.
عادة ما أنشأت الشركات شبكة عصبية واحدة تعلمت جميع الأنماط في جميع البيانات على الإنترنت. كان هذا مكلفًا ، لأنه يتطلب كميات هائلة من البيانات للسفر بين رقائق GPU.
إذا كانت إحدى الشرقات تتعلم كيفية كتابة قصيدة وآخر هو تعلم كيفية كتابة برنامج كمبيوتر ، فلا يزالون بحاجة للتحدث مع بعضهم البعض ، فقط في حالة وجود بعض التداخل بين الشعر والبرمجة.
مع مزيج من طريقة الخبراء ، حاول الباحثون حل هذه المشكلة عن طريق تقسيم النظام إلى العديد من الشبكات العصبية: واحدة للشعر ، واحد لبرمجة الكمبيوتر ، واحدة للبيولوجيا ، واحدة للفيزياء وما إلى ذلك. قد يكون هناك 100 من هذه الأنظمة “الخبراء” الأصغر. يمكن لكل خبير التركيز على مجاله الخاص.
لقد ناضلت العديد من الشركات مع هذه الطريقة ، لكن Deepseek تمكنت من القيام بذلك بشكل جيد. كانت خدعةها هي إقران تلك الأنظمة “الخبراء” الأصغر مع نظام “عام”.
لا يزال الخبراء بحاجة إلى تداول بعض المعلومات مع بعضهم البعض ، ويمكن أن يساعد الفهم العام – الذي كان لديه فهم لائق ولكنه مفصل لكل موضوع – تنسيق التفاعلات بين الخبراء.
إنه يشبه إلى حد ما المحرر الذي يشرف على غرفة أخبار مليئة بالصحفيين المتخصصين.
وهذا أكثر كفاءة؟
أكثر من ذلك بكثير. ولكن هذا ليس هو الشيء الوحيد الذي فعله Deepseek. كما أتقن خدعة بسيطة تنطوي على الكسور العشرية التي يمكن لأي شخص يتذكر أن فصل الرياضيات في المدرسة الابتدائية يمكن أن يفهمه.
هناك الرياضيات تشارك في هذا؟
تذكر معلم الرياضيات الخاص بك يشرح مفهوم PI. PI ، الذي يُشار إليه أيضًا باسم π ، هو رقم لا ينتهي أبدًا: 3.14159265358979 …
يمكنك استخدام π لإجراء حسابات مفيدة ، مثل تحديد محيط الدائرة. عندما تقوم بهذه العمليات الحسابية ، فإنك تقصر π إلى عدد قليل من العشرية: 3.14. إذا كنت تستخدم هذا الرقم الأكثر بساطة ، فستحصل على تقدير جيد جدًا لمحيط الدائرة.
فعلت Deepseek شيئًا مشابهًا – ولكن على نطاق أوسع بكثير – في تدريب تقنية الذكاء الاصطناعي.
الرياضيات التي تسمح للشبكة العصبية بتحديد الأنماط في النص هي مجرد تكاثر – الكثير والكثير والكثير من الضرب. نحن نتحدث شهورًا من الضرب عبر آلاف رقائق الكمبيوتر.
عادة ، تضاعف الرقائق الأرقام التي تتناسب مع 16 بت من الذاكرة. لكن Deepseek ضغط كل رقم في 8 بتات فقط من الذاكرة – نصف المساحة. في جوهرها ، قام بتصوير العديد من العشرية من كل رقم.
هذا يعني أن كل حساب كان أقل دقة. لكن هذا لا يهم. كانت الحسابات دقيقة بما يكفي لإنتاج شبكة عصبية قوية حقًا.
هذا كل شيء؟
حسنًا ، أضافوا خدعة أخرى.
بعد الضغط على كل رقم في 8 بت من الذاكرة ، اتخذ Deepseek طريقًا مختلفًا عند ضرب هذه الأرقام معًا. عند تحديد الإجابة على كل مشكلة في الضرب – إجراء حساب رئيسي من شأنه أن يساعد في تحديد كيفية عمل الشبكة العصبية – فقد امتدت الإجابة عبر 32 بت من الذاكرة. وبعبارة أخرى ، أبقى الكثير من العشرية. جعلت الإجابة أكثر دقة.
إذن أي طالب في المدرسة الثانوية كان يمكن أن يفعل هذا؟
حسنا ، لا. أظهر مهندسو Deepseek في ورقتهم أنهم كانوا أيضًا جيدًا في كتابة رمز الكمبيوتر المعقد للغاية الذي يخبر GPUS بما يجب القيام به. كانوا يعرفون كيفية الضغط على مزيد من الكفاءة من هذه الرقائق.
قليل من الناس لديهم هذا النوع من المهارة. لكن لدى مختبرات الذكاء الاصطناعى الخطيرة المهندسين الموهوبين اللازمة لمطابقة ما فعله ديبسيك.
ثم لماذا لم يفعلوا هذا بالفعل؟
قد تستخدم بعض مختبرات AI على الأقل بعض الحيل نفسها بالفعل. لا تكشف شركات مثل Openai دائمًا عما يفعلونه خلف الأبواب المغلقة.
لكن الآخرين فوجئوا بوضوح بعمل ديبسيك. إن القيام بما فعله الناشئة ليس بالأمر السهل. تتضمن التجربة اللازمة لإيجاد اختراق مثل هذا ملايين الدولارات – إن لم يكن المليارات – في الطاقة الكهربائية.
وبعبارة أخرى ، فإنه يتطلب كميات هائلة من المخاطر.
وقال تيم ديتميرز ، الباحث في معهد ألين للذكاء الاصطناعي في سياتل الذي يتخصص في بناء أنظمة الذكاء الاصطناعى الفعالة: “عليك أن تضع الكثير من المال على المحك لتجربة أشياء جديدة – وغالبًا ما تفشل”. باحث من الذكاء الاصطناعي في ميتا.
وأضاف “هذا هو السبب في أننا لا نرى الكثير من الابتكار: يخشى الناس أن يفقدوا ملايين عديدة لمجرد تجربة شيء لا يعمل”.
أشار العديد من النقاد إلى أن Deepseek بقيمة 6 ملايين دولار غطت فقط ما أنفقه الشركة الناشئة عند تدريب النسخة النهائية من النظام. في ورقتهم ، قال مهندسو Deepseek إنهم أنفقوا أموالًا إضافية على البحث والتجريب قبل التدريب النهائي. لكن الشيء نفسه ينطبق على أي مشروع من الذكاء الاصطناعى المتطور.
Deepseek جربت ، وقد أثمرت. الآن ، نظرًا لأن الناشئة الصينية قد شاركت أساليبها مع باحثين آخرين من الذكاء الاصطناعي ، فإن الحيل التكنولوجية تستعد لتقليل تكلفة بناء الذكاء الاصطناعي بشكل كبير