Tony Kim
23 ديسمبر 2025 21:56
تكشف Character.ai عن أساليب مبتكرة لتحسين التدريب المسبق واسع النطاق، مع التركيز على تقنيات مثل Squinch والتثبيت الديناميكي وGumbel Softmax، لتعزيز الكفاءة في تدريب نماذج الذكاء الاصطناعي.
شاركت Character.ai، وهي لاعب بارز في مجال الذكاء الاصطناعي، مؤخرًا رؤى حول جهودها المبكرة لتحسين تدريب المحولات واسعة النطاق. الشركة، التي حولت تركيزها منذ ذلك الحين إلى أسس النماذج مفتوحة المصدر، استكشفت في الأصل تقنيات مختلفة لتعزيز كفاءة التدريب وسرعته، وفقًا لمدونة Character.AI.
ضغط التدرج: Squinch
واحدة من الابتكارات الرئيسية التي تم تسليط الضوء عليها في جهود Character.ai هي خوارزمية ضغط التدرج المعروفة باسم Squinch. تم تطوير هذه التقنية من قبل المؤسس المشارك Noam Shazeer، وتم تصميم تقنية الضغط ذات 6 بت هذه لتقليل عرض النطاق الترددي للاتصال بشكل كبير أثناء التدريب الموزع مع الحفاظ على دقة النموذج. تضغط الخوارزمية التدرجات بشكل فعال إلى 6 بت لكل عنصر، مما يحسن استخدام عرض النطاق الترددي لمجموعات التدريب.
تنظيم الدقة: Attention Z-Reg
طورت Character.ai أيضًا Attention Z-Reg، وهي طريقة تنظيم يتم تطبيقها على logits الانتباه لضمان الاستقرار العددي. تساعد هذه التقنية في الحفاظ على دقة تمثيلات bfloat16، وهي أمر بالغ الأهمية لتحسين تدريب النماذج الكبيرة.
استقرار التكميم: التثبيت الديناميكي
التثبيت الديناميكي هو تقنية أخرى مستخدمة لتعزيز استقرار التكميم. يمنع قيم التنشيط الصغيرة من الانهيار إلى الصفر من خلال حساب نطاق التثبيت ديناميكيًا بناءً على الجذر التربيعي المتوسط لأوزان الإدخال. تعمل هذه الطريقة على تحسين استقرار التدريب من خلال تقليل أخطاء التكميم.
واجهة برمجة تطبيقات انتباه فعالة: قناع الرؤية
أدى إدخال قناع الرؤية، وهو أداة لتمثيل العلاقات بين الرموز أثناء التدريب والاستدلال، إلى تحسين كفاءة أنظمة التدريب. تساعد واجهة برمجة التطبيقات هذه في إدارة نطاقات الانتباه داخل الدفعات، مما يدعم علاقات المستندات المنظمة على شكل شجرة والانتباه ثنائي الاتجاه.
تحسين التقطير: Gumbel Softmax
في مجال تقطير النماذج، استفادت Character.ai من تقنية Gumbel Softmax لتقليل تكاليف التخزين وعرض النطاق الترددي مع الحفاظ على دقة النماذج المعلمة. يتضمن هذا النهج أخذ عينات من مجموعات فرعية من مخرجات نموذج المعلم، مع الحفاظ على قيم الهدف الناعمة لتدريب نموذج الطالب بشكل أكثر كفاءة.
مهدت جهود Character.ai في تحسين التدريب المسبق الطريق لتدريب نماذج الذكاء الاصطناعي بشكل أكثر كفاءة، حتى مع تحول الشركة نحو التعلم المعزز بعد التدريب للنماذج مفتوحة المصدر. تؤكد هذه التقنيات، بما في ذلك Squinch وGumbel Softmax، التزام الشركة بتطوير كفاءة وقابلية التوسع للذكاء الاصطناعي.
مصدر الصورة: Shutterstock
المصدر: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining


