Postarea Character.ai Unveils Efficient Techniques for Large-Scale Pretraining a apărut pe BitcoinEthereumNews.com. Tony Kim 23 dec. 2025 21:56 Character.aiPostarea Character.ai Unveils Efficient Techniques for Large-Scale Pretraining a apărut pe BitcoinEthereumNews.com. Tony Kim 23 dec. 2025 21:56 Character.ai

Character.ai dezvăluie tehnici eficiente pentru pre-antrenarea la scară largă



Tony Kim
23 dec. 2025 21:56

Character.ai dezvăluie metode inovatoare pentru optimizarea pre-antrenamentului la scară largă, concentrându-se pe tehnici precum Squinch, fixare dinamică și Gumbel Softmax, pentru a spori eficiența antrenamentului modelelor AI.

Character.ai, un actor notabil în domeniul AI, a împărtășit recent informații despre eforturile sale timpurii de optimizare a antrenamentului transformer la scară largă. Compania, care și-a reorientat de atunci atenția către fundamentele modelelor open-source, a explorat inițial diverse tehnici pentru a îmbunătăți eficiența și viteza antrenamentului, conform Character.AI Blog.

Compresie Gradient: Squinch

Una dintre inovațiile cheie evidențiate în eforturile Character.ai este un algoritm de compresie gradient cunoscut sub numele de Squinch. Dezvoltată de co-fondatorul Noam Shazeer, această tehnică de compresie pe 6 biți a fost concepută pentru a reduce semnificativ lățimea de bandă de comunicare în timpul antrenamentului distribuit, menținând în același timp acuratețea modelului. Algoritmul comprimă eficient gradienții la 6 biți per element, optimizând utilizarea lățimii de bandă a clusterelor de antrenament.

Regularizare de Precizie: Attention Z-Reg

Character.ai a dezvoltat, de asemenea, Attention Z-Reg, o metodă de regularizare aplicată logit-urilor de atenție pentru a asigura stabilitatea numerică. Această tehnică ajută la menținerea preciziei reprezentărilor bfloat16, crucială pentru optimizarea antrenamentului modelelor mari.

Stabilitate de Cuantizare: Fixare Dinamică

Fixarea Dinamică este o altă tehnică utilizată pentru a îmbunătăți stabilitatea cuantizării. Aceasta previne colapsul valorilor mici de activare la zero prin calcularea dinamică a intervalului de fixare pe baza mediei pătratice a ponderilor de intrare. Această metodă îmbunătățește stabilitatea antrenamentului prin reducerea erorilor de cuantizare.

API de Atenție Eficient: Visibility Mask

Introducerea Visibility Mask, un instrument pentru reprezentarea relațiilor inter-token în timpul antrenamentului și inferenței, a îmbunătățit eficiența sistemelor de antrenament. Acest API ajută la gestionarea intervalelor de atenție în cadrul loturilor, susținând relațiile de documente structurate arborial și atenția bidirecțională.

Optimizare Distilare: Gumbel Softmax

În domeniul distilării modelelor, Character.ai a folosit tehnica Gumbel Softmax pentru a reduce costurile de stocare și lățime de bandă, menținând în același timp fidelitatea modelelor profesor. Această abordare implică eșantionarea subseturilor de ieșiri ale modelului profesor, păstrând valori țintă soft pentru un antrenament mai eficient al modelului student.

Eforturile Character.ai în optimizarea pre-antrenamentului au deschis calea pentru un antrenament mai eficient al modelelor AI, chiar și în condițiile în care compania se îndreaptă către învățarea prin întărire post-antrenament pentru modele open-source. Aceste tehnici, inclusiv Squinch și Gumbel Softmax, subliniază angajamentul companiei de a avansa eficiența și scalabilitatea AI.

Sursa imaginii: Shutterstock

Sursa: https://blockchain.news/news/character-ai-unveils-efficient-techniques-for-large-scale-pretraining

Oportunitate de piață
Logo Sleepless AI
Pret Sleepless AI (AI)
$0.03701
$0.03701$0.03701
+1.09%
USD
Sleepless AI (AI) graficul prețurilor în timp real
Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează service@support.mexc.com pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.