يضيف SkyRL دعم التعلم المعزز للرؤية واللغة لنماذج متعددة الوسائط

Joerg Hiller 24 أبريل 2026 16:33

يُقدّم SkyRL التعلم المعزز للرؤية واللغة، مما يتيح تدريباً قابلاً للتوسع للمهام متعددة الوسائط. تعرّف على تأثير ذلك على تطوير الذكاء الاصطناعي.

يضيف SkyRL دعم التعلم المعزز للرؤية واللغة لنماذج متعددة الوسائط

أعلن SkyRL، وهو مكتبة للتعلم المعزز (RL) طوّرتها مختبر Sky Computing التابع لجامعة UC Berkeley وشركة Anyscale، عن دعمه لمرحلة ما بعد التدريب لنماذج الرؤية واللغة (VLM). يتيح هذا التحديث للفرق تدريب نماذج متعددة الوسائط باستخدام سير عمل الضبط الدقيق الخاضع للإشراف (SFT) والتعلم المعزز، استجابةً للطلب المتزايد على نماذج قادرة على معالجة البيانات المرئية والنصية معاً.

تستلزم أحمال العمل متعددة الوسائط، كمهام رؤية الحاسوب والروبوتات والاستدلال الوكيل، من النماذج معالجة المدخلات المرئية واتخاذ إجراءات والتكيف بناءً على التغذية الراجعة. تجعل الوظيفة الجديدة في SkyRL من نماذج VLM عنصراً محورياً في منظومة التدريب الخاصة به، موفرةً أدوات لتوسيع نطاق التدريب عبر وحدات GPU المحلية أو مجموعات العقد المتعددة. يستند هذا إلى البنية التحتية القائمة لـSkyRL، التي تدعم بالفعل مهام الوكلاء المعقدة كمعايير هندسة البرمجيات وتوليد النصوص إلى SQL.

الميزات الرئيسية للتحديث

يتمثّل أحد التحديات الجوهرية في التعلم المعزز لمهام الرؤية واللغة في الحفاظ على الاتساق بين التدريب والاستنتاج. يعالج SkyRL الانحراف في احتمالية السجل—الشائع عند معالجة المدخلات المرئية—من خلال تقديم خط أنابيب موزّع. باستخدام مكدس الاستنتاج vLLM مصدراً للحقيقة، تضمن المنصة أن تظل عمليات الترميز وإعداد المدخلات متسقة عبر سير العمل المختلفة.

لا يقتصر هذا النهج على استقرار التدريب فحسب، بل يتيح أيضاً التوسع المستقل لعمال CPU لمعالجة المدخلات، مما يضمن عدم تقييد إنتاجية GPU. يدعم التحديث كذلك وصفات جاهزة للاستخدام لمهام مثل ملاحة Maze2D وGeometry-3k، وهي مجموعة بيانات تستلزم الاستدلال الهندسي المرئي. وقد أظهرت النتائج الأولية تحسّناً في استقرار التدريب حتى عند أحجام النماذج الأكبر، كـQwen3-VL 8B Instruct.

الانعكاسات على تطوير الذكاء الاصطناعي

يُرسّخ SkyRL مكانته بوصفه المنصة المرجعية للتعلم المعزز القابل للتوسع والضبط الدقيق الخاضع للإشراف في تدريب النماذج متعددة الوسائط. من خلال التكامل مع أدوات كـTinker API، يمكن للمستخدمين نشر سير عمل التعلم المعزز على بنيتهم التحتية الخاصة، مما يقلل الاعتماد على مزودين خارجيين. يكتسب هذا أهمية بالغة في ظل الطلب الحسابي المتزايد لتدريب النماذج الكبيرة.

تأتي هذه التطورات في وقت يشهد فيه الطلب على أنظمة الذكاء الاصطناعي متعددة الوسائط ارتفاعاً ملحوظاً في التطبيقات الواقعية. المهام التي تستلزم اتخاذ قرارات متسلسلة، والاستدلال المرئي، والقدرة على التكيّف—كالملاحة المستقلة والتفاعل الديناميكي مع الأدوات—ستستفيد استفادة كبيرة من هذه التطورات. يدعم التصميم المعياري لـSkyRL أيضاً النمذجة الأولية السريعة، مما يُمكّن الباحثين والمطورين من تجربة خوارزميات جديدة ونماذج تدريبية مبتكرة.

النظرة إلى المستقبل

تتضمن خارطة طريق SkyRL ميزات مثل تعبئة التسلسلات، ودعم خلفية Megatron، والتدريب على السياقات الطويلة مع التوازي السياقي. من المتوقع أن تعزز هذه الترقيات قدراته في التعامل مع أحمال العمل المعقدة والوكيلة. للمطورين الراغبين في الخوض في تدريب VLM، يقدم SkyRL دروساً وتوثيقاً لمساعدتهم على البدء.

مع تصاعد اعتماد صناعة الذكاء الاصطناعي على الأنظمة متعددة الوسائط في حالات الاستخدام العملي، ستغدو القدرة على تدريب هذه النماذج وضبطها الدقيق بكفاءة عاملاً تمييزياً رئيسياً. يعكس آخر تحديثات SkyRL التزامه بالبقاء في طليعة هذا التطور، مقدّماً إطاراً قابلاً للتوسع ومعيارياً لأبحاث التعلم المعزز المتطورة ونشره.

مصدر الصورة: Shutterstock