Tony Kim
23 Dis 2025 21:56
Character.ai mendedahkan kaedah inovatif untuk mengoptimumkan pralatihan berskala besar, memfokuskan kepada teknik seperti Squinch, dynamic clamping, dan Gumbel Softmax, untuk meningkatkan kecekapan dalam latihan model AI.
Character.ai, pemain terkenal dalam ruang AI, baru-baru ini berkongsi pandangan tentang usaha awalnya untuk mengoptimumkan latihan transformer berskala besar. Syarikat ini, yang kini telah mengalihkan fokusnya kepada asas model sumber terbuka, pada asalnya meneroka pelbagai teknik untuk meningkatkan kecekapan dan kelajuan latihan, menurut Blog Character.AI.
Mampatan Gradien: Squinch
Salah satu inovasi utama yang diserlahkan dalam usaha Character.ai ialah algoritma mampatan gradien yang dikenali sebagai Squinch. Dibangunkan oleh pengasas bersama Noam Shazeer, teknik mampatan 6-bit ini direka untuk mengurangkan lebar jalur komunikasi dengan ketara semasa latihan teragih sambil mengekalkan ketepatan model. Algoritma ini secara berkesan memampatkan gradien kepada 6 bit setiap elemen, mengoptimumkan penggunaan lebar jalur kluster latihan.
Pengaturan Ketepatan: Attention Z-Reg
Character.ai juga membangunkan Attention Z-Reg, kaedah pengaturan yang digunakan pada logit perhatian untuk memastikan kestabilan berangka. Teknik ini membantu mengekalkan ketepatan representasi bfloat16, yang penting untuk mengoptimumkan latihan model besar.
Kestabilan Kuantisasi: Dynamic Clamping
Dynamic Clamping adalah satu lagi teknik yang digunakan untuk meningkatkan kestabilan kuantisasi. Ia menghalang nilai pengaktifan kecil daripada runtuh kepada sifar dengan mengira julat clamping secara dinamik berdasarkan punca min kuasa dua berat input. Kaedah ini meningkatkan kestabilan latihan dengan mengurangkan ralat kuantisasi.
API Perhatian Cekap: Visibility Mask
Pengenalan Visibility Mask, alat untuk mewakili hubungan antara token semasa latihan dan inferens, telah meningkatkan kecekapan sistem latihan. API ini membantu mengurus julat perhatian dalam kumpulan, menyokong hubungan dokumen berstruktur pokok dan perhatian dua hala.
Pengoptimuman Penyulingan: Gumbel Softmax
Dalam bidang penyulingan model, Character.ai telah memanfaatkan teknik Gumbel Softmax untuk mengurangkan kos penyimpanan dan lebar jalur sambil mengekalkan kesetiaan model guru. Pendekatan ini melibatkan pensampelan subset output model guru, memelihara nilai sasaran lembut untuk latihan model pelajar yang lebih cekap.
Usaha Character.ai dalam mengoptimumkan pralatihan telah membuka jalan untuk latihan model AI yang lebih cekap, walaupun syarikat ini beralih ke pembelajaran pengukuhan pasca-latihan untuk model sumber terbuka. Teknik-teknik ini, termasuk Squinch dan Gumbel Softmax, menekankan komitmen syarikat untuk memajukan kecekapan dan kebolehskalaan AI.
Sumber imej: Shutterstock
Sumber: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining


