NVIDIA uus FP8-reinforcement learningu jaoks mõeldud retsept võimaldab 48% kiiremat treenimist, säilitades samas BF16 täpsuse ning vähendades oluliselt AI infrastruktuuri kulutusi. (LoeNVIDIA uus FP8-reinforcement learningu jaoks mõeldud retsept võimaldab 48% kiiremat treenimist, säilitades samas BF16 täpsuse ning vähendades oluliselt AI infrastruktuuri kulutusi. (Loe

NVIDIA NeMo RL saavutab 48-protsendilise kiirenduse täieliku lõpuni jõudva FP8 täpsusega õppimisega

2026/04/21 07:41
3 minutiline lugemine
Selle sisu kohta tagasiside või murede korral võtke meiega ühendust aadressil crypto.news@mexc.com

NVIDIA NeMo RL saavutab 48% kiirusekasvu täieliku lõpuni FP8 täpsusega õppimisega

Jessie A Ellis 20. aprill 2026, 23:41

NVIDIA uus FP8 retsept tugevdusõppes võimaldab 48% kiiremat õppimist, säilitades samas BF16 täpsuse ja vähendades oluliselt AI infrastruktuuri kulusid.

NVIDIA NeMo RL saavutab 48% kiirusekasvu täieliku lõpuni FP8 täpsusega õppimisega

NVIDIA on avaldanud üldise FP8 täpsuse retsepti tugevdusõppes, mis võimaldab kuni 48% suurema õppimiskiiruse läbilaskevõime, säilitades samas täpsuse võrdsuse traditsiooniliste BF16 lahendustega – see areng omab olulisi tagajärgi AI infrastruktuuri kulu ja GPU arvutusmajanduse suhtes.

Selle tehnika detailid on esitatud NVIDIA Guyue Huangi tehnilises blogipostituses ja see lahendab ühe tugevdusõppe õppimise kõige keerukamatest probleemidest: numbriline ebakõla põhjustatud erinevate täpsustasemetega eraldi mootorites kasutatava genereerimise ja õppimise faaside vahel.

Tehniline läbimurde

Traditsioonilised RL töövoogud kasutavad rolloute’ide tegemiseks vLLM-i ja õppimiseks Megatron Core’t – mõlemad kasutavad oma erilisi CUDA tuumikuid, mis teevad kumulatiivseid numbrilisi erinevusi. Need erinevused suurenevad madalamatel täpsustasemetel, piirates ajalooliselt FP8 kasutust.

Mis on NVIDIA lahendus? Kasutada FP8-d järjepidevalt nii genereerimise kui ka õppimise käigus, mitte segades täpsustasemeid. Testid Llama 3.1 8B Instruct mudelil näitasid, et täieliku lõpuni FP8-ga saavutatud valideerimise täpsus oli 0,613, samas kui BF16 puhul oli see 0,616 – seega on vahe praktiliselt suletud. Samas aga ainult genereerimisel FP8-d kasutades langes täpsus 0,586-ni.

Retsept kasutab plokk-tasemel kvantseeritud FP8 (E4M3 vormingut) kaalude jaoks 128×128 granulaarsusega ning aktiveerimuste jaoks 1×128 granulaarsusega. Lineaarsed kihid käivitavad FP8 matemaatikat 2× teoreetilise tipptäituvusega võrreldes BF16-ga, samas kui tähelepanu, normaliseerimine ja mittelineaarsed funktsioonid jäävad BF16-sse.

Reaalmaailmlikud jõudluskasvud

Ainult lineaarsete kihtide puhul annab FP8 retsept püsivalt 15–25% suurema läbilaskevõime. Vahe teoreetilise 2× kiirusekasvu ja tegelike tulemuste vahel tuleneb sellest, et tähelepanukihtides jääb BF16 ja kvantseerimistuumikute koormus.

FP8 laiendamine KV-vahemällu ja tähelepanuoperatsioonidele tõstab kogu kiirusekasvu ligikaudu 48%-ni BF16 baasjoonel. Päriselu tingimus: RL pidevalt uuenduvad poliitikakaalud nõuavad iga õppimissammu järel kvantseerimise skaalade dünaamilist ümberkalibreerimist. NVIDIA lähenemisviis lisab selle ümberkalibreerimise jaoks umbes 2–3% koormust – väike hind suure kiirenduse eest.

Testid Qwen3-30B mudelil (miks-mudel, „mixture-of-experts“) näitasid, et FP8 ja BF16 konfiguratsioonidel oli identne täpsuse arengukõver – see viitab selle tehnikaga saavutatavale skaalatavusele erinevates arhitektuurides.

Miks see on oluline AI majanduse jaoks

Uute põhjendusvõimetega mudelite, nagu edukate AI-assistentide taga olevate mudelite, tugevdusõppimine nõuab tohutut arvutusvõimsust. 48% kiirusekasv tähendab otsest GPU-tundide ja organisatsioonide elektrikulude vähenemist neil süsteemidel õppimise ajal.

Täpsuse säilitamise võimaldav tähtsuse valimise (importance sampling) tehnika võib osutuda sama väärtuslikuks. Parandades genereerimise ja õppimise mudelite vahelist jaotuse ebakõla tokentasemel, võimaldab see agressiivset täpsuse vähenemist ilma mudeli kvaliteedi kaotamiseta.

Täielik rakendus on saadaval NVIDIA avatud lähtekoodiga NeMo RL teegis, kus on eelseadistatud retseptid nii Llama 3.1 8B kui ka Moonlight 16B mudelite jaoks. Täpsemad kasutajad saavad seda lähenemist täpsustada – hoides konkreetseid transformaatorikihte BF16-s või kasutades täiendavat optimeerimist võimaldavaid kahe astmesse tõstmise (power-of-2) skaala tegureid.

AI infrastruktuuri operaatoritele, kes jälgivad, kuidas arvutusvõimsuse kulud tõusevad koos mudelite keerukusega, esindab see tähenduslikku efektiivsuse võimalust, mille jaoks pole vaja riistvaralisi uuendusi – piisab olemasolevate H100 võimaluste targemast kasutamisest.

Pildi allikas: Shutterstock
  • nvidia
  • ai training
  • fp8 precision
  • machine learning
  • nemo rl
Lahtiütlus: Sellel saidil taasavaldatud artiklid pärinevad avalikelt platvormidelt ja on esitatud ainult informatiivsel eesmärgil. Need ei kajasta tingimata MEXC seisukohti. Kõik õigused jäävad algsetele autoritele. Kui arvate, et sisu rikub kolmandate isikute õigusi, võtke selle eemaldamiseks ühendust aadressil crypto.news@mexc.com. MEXC ei garanteeri sisu täpsust, täielikkust ega ajakohasust ega vastuta esitatud teabe põhjal võetud meetmete eest. Sisu ei ole finants-, õigus- ega muu professionaalne nõuanne ega seda tohiks pidada MEXC soovituseks ega toetuseks.

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!