NVIDIA Dynamo Mejora el Streaming para Flujos de Trabajo Agénticos
Luisa Crawford 08 de mayo de 2026 16:34
NVIDIA Dynamo introduce nuevas herramientas para flujos de trabajo agénticos más rápidos y precisos, mejorando el streaming de tokens y el manejo de llamadas a herramientas.
NVIDIA ha presentado actualizaciones significativas a su plataforma Dynamo, orientadas a optimizar los flujos de trabajo agénticos con streaming mejorado, análisis sintáctico y manejo de llamadas a herramientas. Estas actualizaciones se centran en mejorar la capacidad de respuesta y la precisión de las aplicaciones que dependen de interacciones de múltiples turnos, como los asistentes de codificación y otras herramientas impulsadas por IA.
Uno de los puntos destacados es la introducción del despacho de llamadas a herramientas en streaming. Esta nueva característica permite que las llamadas a herramientas se ejecuten en cuanto son decodificadas, evitando la necesidad de esperar a que se complete el turno de respuesta completo. Este ajuste no solo acelera el tiempo hasta el primer token (TTFT) para los usuarios, sino que también elimina ineficiencias en los flujos de trabajo de agentes donde el razonamiento y las respuestas de herramientas están intercalados.
Mejoras de Rendimiento Mediante la Estabilidad del Prompt
Una mejora central se centra en la estabilidad del prompt y la reutilización de la caché KV. Al eliminar los preámbulos específicos de sesión, como los encabezados de facturación de Anthropic, Dynamo garantiza prefijos de token consistentes entre sesiones. Este cambio redujo el TTFT casi cinco veces en las pruebas de NVIDIA, de 912 ms a 169 ms, en un sistema que utiliza un prompt de 52K tokens.
Para los desarrolladores, mantener prefijos estables es crucial al manejar prompts grandes y complejos en múltiples sesiones de usuario. Estas optimizaciones son especialmente valiosas para modelos agénticos como Claude Code y Codex, que requieren interacciones precisas y reproducibles para funcionar de manera efectiva.
Análisis Sintáctico Mejorado para Interacciones Complejas
Dynamo también ha renovado sus analizadores de razonamiento y llamadas a herramientas, extrayéndolos en módulos reutilizables. Esto permite a los desarrolladores lograr una mejor alineación entre las salidas analizadas y los requisitos del sistema. Las actualizaciones abordan un problema persistente donde el razonamiento previo se descartaba o quedaba malformado durante las interacciones de múltiples turnos. En los flujos de trabajo agénticos donde el razonamiento explica las secuencias de llamadas a herramientas, retener el razonamiento estructurado es fundamental.
Por ejemplo, NVIDIA demostró cómo su modelo Nemotron-3-Super-120B ahora puede procesar el razonamiento intercalado y las llamadas a herramientas de manera más efectiva, asegurando que cada segmento de razonamiento permanezca correctamente vinculado a su acción de herramienta correspondiente. Esto evita problemas donde el razonamiento se agrupaba incorrectamente anteriormente, lo que llevaba a la pérdida de contexto.
Comportamiento del Streaming y Despacho de Herramientas
Otra mejora importante es la capacidad de transmitir respuestas tokenizadas mientras se despachan llamadas a herramientas a través de un canal lateral. Anteriormente, las llamadas a herramientas se almacenaban en búfer hasta el final de una respuesta, retrasando la ejecución. Con las nuevas capacidades de streaming en línea y despacho, las llamadas a herramientas se vuelven accionables en cuanto son analizadas, mejorando significativamente la capacidad de respuesta para aplicaciones en tiempo real.
NVIDIA ilustró esto con una comparación de línea de tiempo que muestra cómo Dynamo ahora analiza y transmite llamadas a herramientas a mitad de respuesta, permitiendo la ejecución inmediata. Este rediseño minimiza la complejidad del lado del sistema y garantiza una integración perfecta con sistemas personalizados.
Cumplimiento Mejorado de la API
Las actualizaciones también mejoran la compatibilidad de Dynamo con la API de Mensajes de Anthropic, una interfaz crítica para herramientas como Claude Code y OpenClaw. Las correcciones incluyen el conteo adecuado de tokens al inicio de los streams y la capacidad de servir endpoints de metadatos de modelos, ambos acercan a Dynamo a la paridad con el backend nativo.
Para los usuarios de Codex, la compatibilidad con la API de Respuestas de OpenAI también ha mejorado. NVIDIA ha abordado problemas de preservación de campos que ocurrían durante el procesamiento interno de solicitudes, asegurando que las características específicas de Codex, como los resúmenes de razonamiento y el truncamiento de llamadas a herramientas, sean compatibles sin degradar el rendimiento.
Próximos Pasos
De cara al futuro, NVIDIA está poniendo partes del stack de servicio de Dynamo disponibles como componentes modulares, incluyendo crates de protocolo, analizador y tokenizador. Esta modularidad permite a los desarrolladores construir sistemas personalizados o ampliar los existentes sin duplicar la funcionalidad central de Dynamo.
Estas actualizaciones posicionan a Dynamo como una solución líder para cargas de trabajo agénticas, habilitando interacciones de múltiples turnos más eficientes y precisas en una amplia gama de aplicaciones. Para los desarrolladores y empresas que dependen de herramientas impulsadas por IA, estas mejoras ofrecen una infraestructura más confiable y de alto rendimiento para tareas como codificación, análisis de datos y más.
Fuente de la imagen: Shutterstock- nvidia
- herramientas de ia
- flujos de trabajo agénticos
- streaming de tokens







