NVIDIA Dynamo Ulepsza Strumieniowanie dla Przepływów Agentycznych

Luisa Crawford 08 maja 2026 16:34

NVIDIA Dynamo wprowadza nowe narzędzia dla szybszych i dokładniejszych przepływów agentycznych, usprawniając strumieniowanie tokenów i obsługę wywołań narzędzi.

NVIDIA Dynamo Ulepsza Strumieniowanie dla Przepływów Agentycznych

NVIDIA ujawniła znaczące aktualizacje swojej platformy Dynamo, mające na celu optymalizację przepływów agentycznych dzięki ulepszonemu strumieniowaniu, parsowaniu i obsłudze wywołań narzędzi. Aktualizacje te skupiają się na poprawie responsywności i dokładności aplikacji opartych na interakcjach wieloturowych, takich jak asystenci kodowania i inne narzędzia oparte na AI.

Jednym z kluczowych wyróżników jest wprowadzenie strumieniowego wysyłania wywołań narzędzi. Ta nowa funkcja umożliwia wykonywanie wywołań narzędzi natychmiast po ich zdekodowaniu, eliminując konieczność oczekiwania na zakończenie pełnej tury odpowiedzi. Ta zmiana nie tylko przyspiesza czas do pierwszego tokenu (TTFT) dla użytkowników, ale także usuwa nieefektywności w przepływach agentycznych, gdzie rozumowanie i odpowiedzi narzędzi są przeplatane.

Wzrost Wydajności Dzięki Stabilności Promptów

Kluczowe ulepszenie koncentruje się na stabilności promptów i ponownym wykorzystaniu pamięci podręcznej KV. Eliminując preambuły specyficzne dla sesji, takie jak nagłówki rozliczeniowe Anthropic, Dynamo zapewnia spójne prefiksy tokenów we wszystkich sesjach. Ta zmiana zmniejszyła TTFT prawie pięciokrotnie w testach NVIDIA, z 912 ms do 169 ms, na systemie używającym promptu o 52 000 tokenach.

Dla deweloperów utrzymanie stabilnych prefiksów jest kluczowe podczas obsługi dużych, złożonych promptów w wielu sesjach użytkowników. Te optymalizacje są szczególnie wartościowe dla modeli agentycznych, takich jak Claude Code i Codex, które wymagają precyzyjnych i powtarzalnych interakcji, aby działać efektywnie.

Ulepszone Parsowanie dla Złożonych Interakcji

Dynamo przeprowadziło również gruntowną przebudowę parserów rozumowania i wywołań narzędzi, wyodrębniając je do modułów wielokrotnego użytku. Pozwala to deweloperom osiągnąć lepsze dopasowanie między sparsowanymi wynikami a wymaganiami uprzęży. Aktualizacje rozwiązują długotrwały problem, w którym poprzednie rozumowanie było pomijane lub zniekształcane podczas interakcji wieloturowych. W przepływach agentycznych, gdzie rozumowanie wyjaśnia sekwencje wywołań narzędzi, zachowanie ustrukturyzowanego rozumowania jest krytyczne.

Na przykład NVIDIA zademonstrował, jak jej model Nemotron-3-Super-120B może teraz efektywniej przetwarzać przeplatane rozumowanie i wywołania narzędzi, zapewniając, że każdy segment rozumowania pozostaje poprawnie powiązany z odpowiadającą mu akcją narzędzia. Zapobiega to problemom, w których rozumowanie było wcześniej grupowane nieprawidłowo, co prowadziło do utraty kontekstu.

Zachowanie Strumieniowania i Wysyłanie Narzędzi

Kolejnym znaczącym ulepszeniem jest możliwość strumieniowania tokenizowanych odpowiedzi przy jednoczesnym wysyłaniu wywołań narzędzi przez kanał boczny. Wcześniej wywołania narzędzi były buforowane do końca odpowiedzi, opóźniając wykonanie. Dzięki nowym możliwościom strumieniowania wbudowanego i wysyłania, wywołania narzędzi stają się wykonalne natychmiast po ich sparsowaniu, znacznie poprawiając responsywność aplikacji czasu rzeczywistego.

NVIDIA zilustrował to porównaniem osi czasu pokazującym, jak Dynamo teraz parsuje i strumieniuje wywołania narzędzi w trakcie odpowiedzi, umożliwiając natychmiastowe wykonanie. Ten redesign minimalizuje złożoność po stronie uprzęży i zapewnia bezproblemową integrację z niestandardowymi systemami.

Ulepszona Zgodność z API

Aktualizacje usprawniają również zgodność Dynamo z Anthropic Messages API, krytycznym interfejsem dla narzędzi takich jak Claude Code i OpenClaw. Poprawki obejmują właściwe liczenie tokenów na początku strumieni oraz możliwość obsługi punktów końcowych metadanych modelu, co przybliża Dynamo do parytetu z natywnym backendem.

Dla użytkowników Codex poprawiono również zgodność z Responses API OpenAI. NVIDIA rozwiązała problemy z zachowaniem pól, które występowały podczas wewnętrznego przetwarzania żądań, zapewniając, że funkcje specyficzne dla Codex, takie jak podsumowania rozumowania i obcinanie wywołań narzędzi, są obsługiwane bez obniżania wydajności.

Co Dalej

Patrząc w przyszłość, NVIDIA udostępnia części stosu serwerowego Dynamo jako komponenty modularne, w tym skrzynki protokołów, parserów i tokenizatorów. Ta modularność pozwala deweloperom budować niestandardowe uprzęże lub rozszerzać istniejące bez powielania podstawowej funkcjonalności Dynamo.

Te aktualizacje pozycjonują Dynamo jako wiodące rozwiązanie dla obciążeń agentycznych, umożliwiając wydajniejsze i dokładniejsze interakcje wieloturowe w różnych aplikacjach. Dla deweloperów i przedsiębiorstw polegających na narzędziach opartych na AI, te ulepszenia oferują bardziej niezawodną i wysokowydajną infrastrukturę dla zadań takich jak kodowanie, analiza danych i nie tylko.

Źródło obrazu: Shutterstock