NVIDIA NeMo RL saavutab 48% kiirusekasvu täieliku lõpuni FP8 täpsusega õppimisega

Jessie A Ellis 20. aprill 2026, 23:41

NVIDIA uus FP8 retsept tugevdusõppes võimaldab 48% kiiremat õppimist, säilitades samas BF16 täpsuse ja vähendades oluliselt AI infrastruktuuri kulusid.

NVIDIA NeMo RL saavutab 48% kiirusekasvu täieliku lõpuni FP8 täpsusega õppimisega

NVIDIA on avaldanud üldise FP8 täpsuse retsepti tugevdusõppes, mis võimaldab kuni 48% suurema õppimiskiiruse läbilaskevõime, säilitades samas täpsuse võrdsuse traditsiooniliste BF16 lahendustega – see areng omab olulisi tagajärgi AI infrastruktuuri kulu ja GPU arvutusmajanduse suhtes.

Selle tehnika detailid on esitatud NVIDIA Guyue Huangi tehnilises blogipostituses ja see lahendab ühe tugevdusõppe õppimise kõige keerukamatest probleemidest: numbriline ebakõla põhjustatud erinevate täpsustasemetega eraldi mootorites kasutatava genereerimise ja õppimise faaside vahel.

Tehniline läbimurde

Traditsioonilised RL töövoogud kasutavad rolloute’ide tegemiseks vLLM-i ja õppimiseks Megatron Core’t – mõlemad kasutavad oma erilisi CUDA tuumikuid, mis teevad kumulatiivseid numbrilisi erinevusi. Need erinevused suurenevad madalamatel täpsustasemetel, piirates ajalooliselt FP8 kasutust.

Mis on NVIDIA lahendus? Kasutada FP8-d järjepidevalt nii genereerimise kui ka õppimise käigus, mitte segades täpsustasemeid. Testid Llama 3.1 8B Instruct mudelil näitasid, et täieliku lõpuni FP8-ga saavutatud valideerimise täpsus oli 0,613, samas kui BF16 puhul oli see 0,616 – seega on vahe praktiliselt suletud. Samas aga ainult genereerimisel FP8-d kasutades langes täpsus 0,586-ni.

Retsept kasutab plokk-tasemel kvantseeritud FP8 (E4M3 vormingut) kaalude jaoks 128×128 granulaarsusega ning aktiveerimuste jaoks 1×128 granulaarsusega. Lineaarsed kihid käivitavad FP8 matemaatikat 2× teoreetilise tipptäituvusega võrreldes BF16-ga, samas kui tähelepanu, normaliseerimine ja mittelineaarsed funktsioonid jäävad BF16-sse.

Reaalmaailmlikud jõudluskasvud

Ainult lineaarsete kihtide puhul annab FP8 retsept püsivalt 15–25% suurema läbilaskevõime. Vahe teoreetilise 2× kiirusekasvu ja tegelike tulemuste vahel tuleneb sellest, et tähelepanukihtides jääb BF16 ja kvantseerimistuumikute koormus.

FP8 laiendamine KV-vahemällu ja tähelepanuoperatsioonidele tõstab kogu kiirusekasvu ligikaudu 48%-ni BF16 baasjoonel. Päriselu tingimus: RL pidevalt uuenduvad poliitikakaalud nõuavad iga õppimissammu järel kvantseerimise skaalade dünaamilist ümberkalibreerimist. NVIDIA lähenemisviis lisab selle ümberkalibreerimise jaoks umbes 2–3% koormust – väike hind suure kiirenduse eest.

Testid Qwen3-30B mudelil (miks-mudel, „mixture-of-experts“) näitasid, et FP8 ja BF16 konfiguratsioonidel oli identne täpsuse arengukõver – see viitab selle tehnikaga saavutatavale skaalatavusele erinevates arhitektuurides.

Miks see on oluline AI majanduse jaoks

Uute põhjendusvõimetega mudelite, nagu edukate AI-assistentide taga olevate mudelite, tugevdusõppimine nõuab tohutut arvutusvõimsust. 48% kiirusekasv tähendab otsest GPU-tundide ja organisatsioonide elektrikulude vähenemist neil süsteemidel õppimise ajal.

Täpsuse säilitamise võimaldav tähtsuse valimise (importance sampling) tehnika võib osutuda sama väärtuslikuks. Parandades genereerimise ja õppimise mudelite vahelist jaotuse ebakõla tokentasemel, võimaldab see agressiivset täpsuse vähenemist ilma mudeli kvaliteedi kaotamiseta.

Täielik rakendus on saadaval NVIDIA avatud lähtekoodiga NeMo RL teegis, kus on eelseadistatud retseptid nii Llama 3.1 8B kui ka Moonlight 16B mudelite jaoks. Täpsemad kasutajad saavad seda lähenemist täpsustada – hoides konkreetseid transformaatorikihte BF16-s või kasutades täiendavat optimeerimist võimaldavaid kahe astmesse tõstmise (power-of-2) skaala tegureid.

AI infrastruktuuri operaatoritele, kes jälgivad, kuidas arvutusvõimsuse kulud tõusevad koos mudelite keerukusega, esindab see tähenduslikku efektiivsuse võimalust, mille jaoks pole vaja riistvaralisi uuendusi – piisab olemasolevate H100 võimaluste targemast kasutamisest.

Pildi allikas: Shutterstock

nvidia
ai training
fp8 precision
machine learning
nemo rl

NVIDIA NeMo RL saavutab 48-protsendilise kiirenduse täieliku lõpuni jõudva FP8 täpsusega õppimisega

NVIDIA NeMo RL saavutab 48% kiirusekasvu täieliku lõpuni FP8 täpsusega õppimisega

Tehniline läbimurde

Reaalmaailmlikud jõudluskasvud

Miks see on oluline AI majanduse jaoks

Teile võib meeldida ka

Revolut lükkas IPO-d üle 2028. aastasse pärast Suurbritannia pangalitsentsi saamist

MAGA kohtunikuna tegutsev justiitsminister tunnistas vande all eetilise reegli rikkumist, kui senaadi valimised kuumenevad: WSJ

Morgan Stanley Bitcoin ETF kogus esimese nädala jooksul üle 100 miljoni dollari

Trendikad uudised

Oleme normaliseerinud Trumpi messiaanliku kompleksi – ja see, mida see tähendab Ameerikale

Polygoni ekosüsteemi tokeni hindennustus – POL hind on hinnatud langema $ 0,072935-ni 25. aprillini 2026

Bitmine ostis 101 000 ETH-i, läheneb 5%-lisest varustus-eesmärgist

Trumpi valik Ameerika Ühendriikide majanduse päästmiseks on suur takistus

Ripple seab 2028. aastaks XRP Ledger kvantumkaitsega kasutatavaks

Otseülekanded ööpäevaringselt

Krüptohinnad

NVIDIA NeMo RL saavutab 48-protsendilise kiirenduse täieliku lõpuni jõudva FP8 täpsusega õppimisega

NVIDIA NeMo RL saavutab 48% kiirusekasvu täieliku lõpuni FP8 täpsusega õppimisega

Tehniline läbimurde

Reaalmaailmlikud jõudluskasvud

Miks see on oluline AI majanduse jaoks

Teile võib meeldida ka

Revolut lükkas IPO-d üle 2028. aastasse pärast Suurbritannia pangalitsentsi saamist

MAGA kohtunikuna tegutsev justiitsminister tunnistas vande all eetilise reegli rikkumist, kui senaadi valimised kuumenevad: WSJ

Morgan Stanley Bitcoin ETF kogus esimese nädala jooksul üle 100 miljoni dollari

Trendikad uudised

Oleme normaliseerinud Trumpi messiaanliku kompleksi – ja see, mida see tähendab Ameerikale

Polygoni ekosüsteemi tokeni hindennustus – POL hind on hinnatud langema $ 0,072935-ni 25. aprillini 2026

Bitmine ostis 101 000 ETH-i, läheneb 5%-lisest varustus-eesmärgist

Trumpi valik Ameerika Ühendriikide majanduse päästmiseks on suur takistus

Ripple seab 2028. aastaks XRP Ledger kvantumkaitsega kasutatavaks

Otseülekanded ööpäevaringselt

Krüptohinnad

Polygoni ekosüsteemi tokeni hindennustus – POL hind on hinnatud langema $ 0,072935-ni 25. aprillini 2026