في سلسلة القيمة الكاملة للذكاء الاصطناعي، يُعتبر تدريب النموذج هو المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث متطلبات التكنولوجيا، حيث يحدد بشكل مباشر الحد الأقصى لقدرة النموذج وفعالية التطبيق الفعلي. بالمقارنة مع استدعاء خفيف الوزن في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا لقوة حسابية كبيرة، وعملية معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج المعمارية، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي سيتم مناقشته في هذه المقالة.
يعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب، جميعها تعمل بتنسيق من نظام تحكم موحد. تتيح هذه البنية التحتية المتكاملة مشاركة الذاكرة، وتزامن التدرجات، وآليات تحمل الأخطاء بكفاءة مثالية، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT وGemini، حيث تتمتع بكفاءة عالية وموارد قابلة للتحكم، لكنها تعاني في الوقت نفسه من مشكلات احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الأسلوب السائد حاليًا في تدريب النماذج الكبيرة، حيث يتمثل جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة آلات لتنفيذها بشكل متعاون، وذلك لتجاوز قيود الحوسبة والتخزين على جهاز واحد. على الرغم من توفر خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن التحكم والتنسيق والتزامن لا يزال تحت سيطرة مؤسسة مركزية، وغالبًا ما تعمل في بيئات الشبكات المحلية عالية السرعة، من خلال تقنية NVLink للحافلات عالية السرعة، حيث يتم تنسيق المهام الفرعية بواسطة العقدة الرئيسية بشكل موحد. تشمل الأساليب السائدة:
التوازي البياني: كل عقدة تدرب بيانات مختلفة مع مشاركة المعلمات، بحاجة لمطابقة أوزان النموذج
توازي النماذج: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية التوسع القوية
تنفيذ خط الأنابيب المتوازي: تنفيذ متسلسل على مراحل، وزيادة معدل الإنتاج
البرمجة الموازية: تقسيم دقيق لحساب المصفوفات، تحسين مستوى التوازي
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، بتمثيل يشبه وجود نفس المدير الذي يقود عن بُعد عدة "مكاتب" من الموظفين للتعاون في إكمال المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبيرة الرائدة تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مسارًا مستقبليًا أكثر انفتاحًا وخصائص مقاومة للرقابة. تتمثل الميزات الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهام التدريب دون منسق مركزي، عادةً من خلال بروتوكولات تدفع توزيع المهام والتعاون، وبمساعدة آلية تحفيز تشفير لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
صعوبة التوافق بين الأجهزة المختلفة وتقسيم المهام: صعوبة تنسيق الأجهزة المتنوعة وانخفاض كفاءة تقسيم المهام
اختناق كفاءة الاتصال: الاتصال الشبكي غير مستقر، واختناق مزامنة التدرج واضح
نقص التنفيذ الموثوق: نقص في بيئة التنفيذ الموثوقة، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك فعلاً في الحساب
نقص التنسيق الموحد: عدم وجود وحدة تحكم مركزية، توزيع المهام وآلية التراجع عن الأخطاء معقدة
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل منهم بقوة الحوسبة لتدريب النموذج بشكل مشترك، لكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا منهجيًا، ويشمل عدة جوانب مثل بنية النظام، بروتوكول الاتصال، أمان التشفير، الآلية الاقتصادية، والتحقق من النموذج، لكن هل يمكن أن يكون "تعاون فعال + تحفيز على الصدق + نتائج صحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.
يتسم التعلم الفيدرالي كمرحلة انتقالية بين التوزيع واللامركزية، بالتأكيد على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، مما يجعله مناسبًا للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، كما أنه يجمع بين مزايا توزيع البيانات في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يمتلك خصائص الانفتاح الكامل ومقاومة الرقابة. يمكن اعتباره نوعًا من "اللامركزية الخاضعة للرقابة" في سياقات الامتثال للخصوصية، حيث يكون أكثر اعتدالًا في مهام التدريب، وبنية الثقة، وآلية الاتصال، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
حدود التدريب اللامركزي، الفرص والمسارات الواقعية
من حيث نمط التدريب، لا يعتبر التدريب اللامركزي مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، نظرًا لتعقيد هيكل المهمة، أو ارتفاع متطلبات الموارد، أو صعوبة التعاون، فإنه بطبيعته غير مناسب للإنجاز بكفاءة بين العقد غير المتجانسة والموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالبًا على ذاكرة عالية، وزمن انتقال منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمها ومزامنتها بشكل فعال في الشبكات المفتوحة؛ بينما المهام التي تفرض قيودًا قوية على خصوصية البيانات والسيادة تكون محدودة بالقوانين والامتثال والقيود الأخلاقية، مما يمنع المشاركة المفتوحة؛ في حين أن المهام التي تفتقر إلى أساس الحوافز التعاونية تفتقر إلى الدوافع الخارجية للمشاركة. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، يظهر التدريب اللامركزي آفاق تطبيقية واضحة في أنواع المهام التي تتميز بالهيكل الخفيف وسهولة التوازي والتحفيز. بما في ذلك، على سبيل المثال لا الحصر: ضبط LoRA، مهام ما بعد التدريب المتعلقة بمحاذاة السلوك، تدريب وتوصيف البيانات عبر الحشد، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتمتع هذه المهام عمومًا بخصائص عالية من حيث التوازي، وانخفاض الترابط، والقدرة على تحمل القوة الحاسوبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني عبر الشبكات P2P، وبروتوكول Swarm، والمحسنات الموزعة.
تحليل المشاريع الكلاسيكية للتدريب اللامركزي
حاليًا في مجال التدريب اللامركزي والتعلم الفيدرالي، تشمل المشاريع الرائدة في البلوكشين بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزمية، مما يمثل الاتجاهات الرائدة في البحث النظري الحالي؛ بينما مسارات تنفيذ Gensyn وFlock.io واضحة نسبيًا، ويمكن رؤية تقدم هندسي أولي. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهندسة المعمارية وراء هذه المشاريع الخمسة، وستستكشف المزيد من الفروقات والعلاقات التكميلية في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد الشبكات التعاونية المعززة القابلة للتحقق من مسارات التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب للذكاء الاصطناعي لا تحتاج إلى ثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحاسوبية. تأمل Prime Intellect في بناء نظام تدريب للذكاء الاصطناعي اللامركزي يمتاز بالتحقق، والانفتاح، وآلية تحفيزية شاملة من خلال ثلاثة مكونات رئيسية: PRIME-RL + TOPLOC + SHARDCAST.
01، هيكل بروتوكول Prime Intellect و قيمة الوحدات الأساسية
02، شرح آلية التدريب الرئيسية لـ Prime Intellect
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المنفصل
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص لسيناريوهات التدريب اللامركزية من Prime Intellect، مصمم خصيصًا لشبكات غير متجانسة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف تكييف أولوي، ويفصل هيكليًا بين عمليات التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام محليًا بشكل مستقل، والتعاون من خلال واجهات قياسية وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم الخاضع للإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتنفيذ تدريب مرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويضع الأساس لدعم المهام المتعددة بالتوازي وتطور الاستراتيجيات.
TOPLOC: آلية التحقق من سلوك التدريب خفيفة الوزن
TOPLOC هو آلية جوهرية للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كانت العقدة قد أكملت حقًا التعلم الفعّال للسياسات بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يقوم بتحليل "سلسلة المراقبة ↔ تحديث السياسة" بين المسارات المحلية المتسقة، لإكمال التحقق الهيكلي الخفيف. إنه يحول للمرة الأولى المسارات السلوكية خلال عملية التدريب إلى كائنات يمكن التحقق منها، وهو الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول نشر وتجميع الوزن الذي صممه Prime Intellect، مصمم خصيصًا لبيئات الشبكة الحقيقية التي تعاني من اللامركزية والقيود على النطاق الترددي وتغير حالات العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالة عدم التزامن، مما يحقق التقارب التدريجي للوزن وتطورات متعددة النسخ. مقارنة بأساليب AllReduce المركزية أو المتزامنة، يعزز SHARDCAST بشكل كبير قابلية التوسع والقدرة على تحمل الأخطاء في التدريب اللامركزي، وهو الأساس الرئيسي لبناء توافق مستقر على الوزن والتدريب المستمر.
OpenDiLoCo: إطار الاتصال غير المتزامن النادر
OpenDiLoCo هو إطار تحسين الاتصالات الذي أطلقه فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، وهو تم تنفيذه بشكل مستقل ومفتوح المصدر، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي البياني، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج بشكل تعاوني. من خلال الجمع بين التحديثات غير المتزامنة وآلية تحمل نقاط التوقف، يتيح OpenDiLoCo لمجموعات GPU الاستهلاكية والأجهزة الطرفية المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، ويعتبر أحد البنى التحتية الأساسية للاتصالات اللازمة لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هي مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، وتهدف إلى حل عنق الزجاجة في التكيف الذي تواجهه مكتبات الاتصالات التقليدية في الأجهزة غير المتجانسة والشبكات ذات النطاق الترددي المنخفض. تدعم PCCL التوبولوجيا المتناثرة، وضغط التدرجات، والتزامن منخفض الدقة واستعادة النقاط، ويمكن تشغيلها على وحدات معالجة الرسومات الاستهلاكية والعقد غير المستقرة، وهي المكون الأساسي الذي يدعم قدرة الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد عززت بشكل كبير من تحمل عرض النطاق الترددي لشبكات التدريب وتوافق الأجهزة، مما يمهد الطريق لبناء شبكة تدريب تعاونية مفتوحة حقًا وموثوقة، وفتح "آخر كيلومتر" من البنية التحتية للاتصالات.
03، شبكة Prime Intellect للتحفيز وتوزيع الأدوار
بنت Prime Intellect شبكة تدريب قابلة للتحقق وغير بحاجة إلى إذن، مزودة بآلية حوافز اقتصادية، مما يتيح لأي شخص المشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعتمد تشغيل البروتوكول على ثلاثة أنواع من الأدوار الأساسية:
عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات المراقبة
عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب، والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
04، INTELLECT-2: أول نموذج تدريب قابل للتحقق من اللامركزية يتم إصداره
أصدرت Prime Intellect INTELLECT-2 في مايو 2025، وهو أول نموذج كبير للتعلم المعزز تم تدريبه بواسطة عقد لامركزية غير موثوقة ومتزامنة. تصل حجم المعلمات إلى 32B. تم تدريب نموذج INTELLECT-2 بواسطة أكثر من 100 عقدة GPU غير متجانسة منتشرة عبر ثلاث قارات، باستخدام هيكل غير متزامن بالكامل، واستغرق التدريب أكثر من 400 ساعة، مما يظهر جدوى واستقرار الشبكة التعاونية غير المتزامنة. هذا النموذج ليس فقط突破ًا في الأداء، ولكنه أيضًا التنفيذ النظامي الأول لنموذج "التدريب هو توافق الآراء" الذي اقترحته Prime Intellect. يدمج INTELLECT-2 بروتوكولات نموذجية رئيسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يدل على أن الشبكة التدريبية اللامركزية قد حققت التدريب للمرة الأولى.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 17
أعجبني
17
9
مشاركة
تعليق
0/400
GasFeeCrying
· 07-09 05:26
ما هي الصناعة الثقيلة إلا كومة من بطاقات الرسوم؟
شاهد النسخة الأصليةرد0
WagmiWarrior
· 07-08 05:48
هذه هي نسخة الذكاء الاصطناعي من pow على ما أعتقد
شاهد النسخة الأصليةرد0
MEVSandwichVictim
· 07-07 10:38
مرة أخرى، ما فائدة تداول الأفكار؟
شاهد النسخة الأصليةرد0
TradFiRefugee
· 07-06 14:34
هل جننت؟
شاهد النسخة الأصليةرد0
DefiSecurityGuard
· 07-06 14:33
علم أحمر: تدريب مركزي = نقطة فشل واحدة. أشعر بالأسف تجاه هذه المخاطر الأمنية...
شاهد النسخة الأصليةرد0
RooftopReserver
· 07-06 14:28
بيانات التعدين كارثة الألغام تعرف عليها~
شاهد النسخة الأصليةرد0
EthSandwichHero
· 07-06 14:28
آه، هل بدأت هذه الدائرة في الانغماس في الذكاء الاصطناعي؟
استكشاف الحدود في تدريب الذكاء الاصطناعي اللامركزي: من المركزية إلى الاختراقات الابتكارية لـ Prime Intellect
الكأس المقدسة للذكاء الاصطناعي في العملات المشفرة: الاستكشاف المتقدم للتدريب اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يُعتبر تدريب النموذج هو المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث متطلبات التكنولوجيا، حيث يحدد بشكل مباشر الحد الأقصى لقدرة النموذج وفعالية التطبيق الفعلي. بالمقارنة مع استدعاء خفيف الوزن في مرحلة الاستدلال، يتطلب عملية التدريب استثمارًا مستمرًا لقوة حسابية كبيرة، وعملية معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج المعمارية، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي سيتم مناقشته في هذه المقالة.
يعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب، جميعها تعمل بتنسيق من نظام تحكم موحد. تتيح هذه البنية التحتية المتكاملة مشاركة الذاكرة، وتزامن التدرجات، وآليات تحمل الأخطاء بكفاءة مثالية، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT وGemini، حيث تتمتع بكفاءة عالية وموارد قابلة للتحكم، لكنها تعاني في الوقت نفسه من مشكلات احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الأسلوب السائد حاليًا في تدريب النماذج الكبيرة، حيث يتمثل جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة آلات لتنفيذها بشكل متعاون، وذلك لتجاوز قيود الحوسبة والتخزين على جهاز واحد. على الرغم من توفر خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن التحكم والتنسيق والتزامن لا يزال تحت سيطرة مؤسسة مركزية، وغالبًا ما تعمل في بيئات الشبكات المحلية عالية السرعة، من خلال تقنية NVLink للحافلات عالية السرعة، حيث يتم تنسيق المهام الفرعية بواسطة العقدة الرئيسية بشكل موحد. تشمل الأساليب السائدة:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، بتمثيل يشبه وجود نفس المدير الذي يقود عن بُعد عدة "مكاتب" من الموظفين للتعاون في إكمال المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبيرة الرائدة تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مسارًا مستقبليًا أكثر انفتاحًا وخصائص مقاومة للرقابة. تتمثل الميزات الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهام التدريب دون منسق مركزي، عادةً من خلال بروتوكولات تدفع توزيع المهام والتعاون، وبمساعدة آلية تحفيز تشفير لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل منهم بقوة الحوسبة لتدريب النموذج بشكل مشترك، لكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا منهجيًا، ويشمل عدة جوانب مثل بنية النظام، بروتوكول الاتصال، أمان التشفير، الآلية الاقتصادية، والتحقق من النموذج، لكن هل يمكن أن يكون "تعاون فعال + تحفيز على الصدق + نتائج صحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.
يتسم التعلم الفيدرالي كمرحلة انتقالية بين التوزيع واللامركزية، بالتأكيد على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، مما يجعله مناسبًا للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، كما أنه يجمع بين مزايا توزيع البيانات في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يمتلك خصائص الانفتاح الكامل ومقاومة الرقابة. يمكن اعتباره نوعًا من "اللامركزية الخاضعة للرقابة" في سياقات الامتثال للخصوصية، حيث يكون أكثر اعتدالًا في مهام التدريب، وبنية الثقة، وآلية الاتصال، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
حدود التدريب اللامركزي، الفرص والمسارات الواقعية
من حيث نمط التدريب، لا يعتبر التدريب اللامركزي مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، نظرًا لتعقيد هيكل المهمة، أو ارتفاع متطلبات الموارد، أو صعوبة التعاون، فإنه بطبيعته غير مناسب للإنجاز بكفاءة بين العقد غير المتجانسة والموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالبًا على ذاكرة عالية، وزمن انتقال منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمها ومزامنتها بشكل فعال في الشبكات المفتوحة؛ بينما المهام التي تفرض قيودًا قوية على خصوصية البيانات والسيادة تكون محدودة بالقوانين والامتثال والقيود الأخلاقية، مما يمنع المشاركة المفتوحة؛ في حين أن المهام التي تفتقر إلى أساس الحوافز التعاونية تفتقر إلى الدوافع الخارجية للمشاركة. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، يظهر التدريب اللامركزي آفاق تطبيقية واضحة في أنواع المهام التي تتميز بالهيكل الخفيف وسهولة التوازي والتحفيز. بما في ذلك، على سبيل المثال لا الحصر: ضبط LoRA، مهام ما بعد التدريب المتعلقة بمحاذاة السلوك، تدريب وتوصيف البيانات عبر الحشد، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتمتع هذه المهام عمومًا بخصائص عالية من حيث التوازي، وانخفاض الترابط، والقدرة على تحمل القوة الحاسوبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني عبر الشبكات P2P، وبروتوكول Swarm، والمحسنات الموزعة.
تحليل المشاريع الكلاسيكية للتدريب اللامركزي
حاليًا في مجال التدريب اللامركزي والتعلم الفيدرالي، تشمل المشاريع الرائدة في البلوكشين بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزمية، مما يمثل الاتجاهات الرائدة في البحث النظري الحالي؛ بينما مسارات تنفيذ Gensyn وFlock.io واضحة نسبيًا، ويمكن رؤية تقدم هندسي أولي. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهندسة المعمارية وراء هذه المشاريع الخمسة، وستستكشف المزيد من الفروقات والعلاقات التكميلية في نظام تدريب الذكاء الاصطناعي اللامركزي.
Prime Intellect: رائد الشبكات التعاونية المعززة القابلة للتحقق من مسارات التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب للذكاء الاصطناعي لا تحتاج إلى ثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحاسوبية. تأمل Prime Intellect في بناء نظام تدريب للذكاء الاصطناعي اللامركزي يمتاز بالتحقق، والانفتاح، وآلية تحفيزية شاملة من خلال ثلاثة مكونات رئيسية: PRIME-RL + TOPLOC + SHARDCAST.
01، هيكل بروتوكول Prime Intellect و قيمة الوحدات الأساسية
02، شرح آلية التدريب الرئيسية لـ Prime Intellect
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المنفصل
PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص لسيناريوهات التدريب اللامركزية من Prime Intellect، مصمم خصيصًا لشبكات غير متجانسة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف تكييف أولوي، ويفصل هيكليًا بين عمليات التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام محليًا بشكل مستقل، والتعاون من خلال واجهات قياسية وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم الخاضع للإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتنفيذ تدريب مرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويضع الأساس لدعم المهام المتعددة بالتوازي وتطور الاستراتيجيات.
TOPLOC: آلية التحقق من سلوك التدريب خفيفة الوزن
TOPLOC هو آلية جوهرية للتحقق من التدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كانت العقدة قد أكملت حقًا التعلم الفعّال للسياسات بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يقوم بتحليل "سلسلة المراقبة ↔ تحديث السياسة" بين المسارات المحلية المتسقة، لإكمال التحقق الهيكلي الخفيف. إنه يحول للمرة الأولى المسارات السلوكية خلال عملية التدريب إلى كائنات يمكن التحقق منها، وهو الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول نشر وتجميع الوزن الذي صممه Prime Intellect، مصمم خصيصًا لبيئات الشبكة الحقيقية التي تعاني من اللامركزية والقيود على النطاق الترددي وتغير حالات العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالة عدم التزامن، مما يحقق التقارب التدريجي للوزن وتطورات متعددة النسخ. مقارنة بأساليب AllReduce المركزية أو المتزامنة، يعزز SHARDCAST بشكل كبير قابلية التوسع والقدرة على تحمل الأخطاء في التدريب اللامركزي، وهو الأساس الرئيسي لبناء توافق مستقر على الوزن والتدريب المستمر.
OpenDiLoCo: إطار الاتصال غير المتزامن النادر
OpenDiLoCo هو إطار تحسين الاتصالات الذي أطلقه فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، وهو تم تنفيذه بشكل مستقل ومفتوح المصدر، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي البياني، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج بشكل تعاوني. من خلال الجمع بين التحديثات غير المتزامنة وآلية تحمل نقاط التوقف، يتيح OpenDiLoCo لمجموعات GPU الاستهلاكية والأجهزة الطرفية المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، ويعتبر أحد البنى التحتية الأساسية للاتصالات اللازمة لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هي مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، وتهدف إلى حل عنق الزجاجة في التكيف الذي تواجهه مكتبات الاتصالات التقليدية في الأجهزة غير المتجانسة والشبكات ذات النطاق الترددي المنخفض. تدعم PCCL التوبولوجيا المتناثرة، وضغط التدرجات، والتزامن منخفض الدقة واستعادة النقاط، ويمكن تشغيلها على وحدات معالجة الرسومات الاستهلاكية والعقد غير المستقرة، وهي المكون الأساسي الذي يدعم قدرة الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد عززت بشكل كبير من تحمل عرض النطاق الترددي لشبكات التدريب وتوافق الأجهزة، مما يمهد الطريق لبناء شبكة تدريب تعاونية مفتوحة حقًا وموثوقة، وفتح "آخر كيلومتر" من البنية التحتية للاتصالات.
03، شبكة Prime Intellect للتحفيز وتوزيع الأدوار
بنت Prime Intellect شبكة تدريب قابلة للتحقق وغير بحاجة إلى إذن، مزودة بآلية حوافز اقتصادية، مما يتيح لأي شخص المشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعتمد تشغيل البروتوكول على ثلاثة أنواع من الأدوار الأساسية:
تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
04، INTELLECT-2: أول نموذج تدريب قابل للتحقق من اللامركزية يتم إصداره
أصدرت Prime Intellect INTELLECT-2 في مايو 2025، وهو أول نموذج كبير للتعلم المعزز تم تدريبه بواسطة عقد لامركزية غير موثوقة ومتزامنة. تصل حجم المعلمات إلى 32B. تم تدريب نموذج INTELLECT-2 بواسطة أكثر من 100 عقدة GPU غير متجانسة منتشرة عبر ثلاث قارات، باستخدام هيكل غير متزامن بالكامل، واستغرق التدريب أكثر من 400 ساعة، مما يظهر جدوى واستقرار الشبكة التعاونية غير المتزامنة. هذا النموذج ليس فقط突破ًا في الأداء، ولكنه أيضًا التنفيذ النظامي الأول لنموذج "التدريب هو توافق الآراء" الذي اقترحته Prime Intellect. يدمج INTELLECT-2 بروتوكولات نموذجية رئيسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يدل على أن الشبكة التدريبية اللامركزية قد حققت التدريب للمرة الأولى.