NVIDIA запускает мониторинг NCCL в реальном времени с Prometheus
Lawrence Jengar 07 мая 2026 16:39
NVIDIA представляет NCCL Inspector с мониторингом в реальном времени и интеграцией с Prometheus, улучшая отладку рабочих нагрузок ИИ и мониторинг с визуализацией через Grafana.
NVIDIA представила значительное обновление своей библиотеки коллективных коммуникаций (NCCL) с введением мониторинга производительности в реальном времени через NCCL Inspector и интеграцию с Prometheus. Эта новая функция разработана для упрощения отладки и оптимизации GPU-to-GPU коммуникации — критически важного компонента в распределённом глубоком обучении и высокопроизводительных вычислениях (HPC).
NCCL является основой для многих рабочих нагрузок ИИ, обеспечивая эффективную связь между GPU — как в рамках одной машины, так и между несколькими узлами. Однако выявление узких мест в рабочих процессах обучения исторически было непростой задачей. С последним обновлением NCCL Inspector пользователи теперь могут получать доступ к live-данным временных рядов, визуализированным через дашборды Grafana, что упрощает процесс диагностики и устранения замедлений производительности.
Режим Prometheus: революция для мониторинга в реальном времени
Новый режим Prometheus устраняет необходимость в громоздких JSON-файлах, ранее требовавшихся для автономного хранилища анализа. Вместо этого метрики производительности NCCL собираются Prometheus Node Exporter и хранятся в базе данных временных рядов, обеспечивая визуализацию в реальном времени. Эти метрики включают такие детали, как пропускная способность шины, время выполнения и размеры сообщений, и классифицируются по контексту, например, по GPU-устройству, узлу и типу коллективной операции.
Например, во время крупномасштабного задания предварительного обучения ИИ пользователи могут отслеживать пропускную способность и производительность выполнения в смешанных коммуникационных уровнях, таких как NVLink и сетевые интерконнекты. Возможность сопоставлять live-данные с наблюдаемыми замедлениями предоставляет полезные сведения для устранения неполадок и оптимизации рабочих процессов.
Практические сценарии использования
Улучшенный NCCL Inspector особенно ценен для двух ключевых сценариев:
- Live-наблюдаемость: Дашборды в реальном времени позволяют пользователям быстро выявлять и устранять аномалии производительности во время длительных задач. NVIDIA продемонстрировала эту возможность в эксперименте с большой языковой моделью, где ограничения, вызванные сетью, снизили вычислительную производительность на 13%. Благодаря live-данным инженеры локализовали проблему в сетевом узком месте, значительно сократив время до её устранения.
- Атрибуция производительности: Инструмент также поддерживает постфактум-анализ путём сопоставления падений производительности с конкретными временными периодами и состоянием сети. Например, временные деградации пропускной способности в эксперименте были отслежены до сбоев в коммуникации NVLink и сети.
Развёртывание и следующие шаги
Настройка NCCL Inspector с Prometheus требует конфигурирования переменных среды и развёртывания плагина профилировщика. NVIDIA предоставляет подробную документацию на своей странице GitHub, включая шаблоны Grafana для настройки дашбордов. Ожидается, что эта интеграция обеспечит широкое распространение среди исследователей ИИ и организаций, стремящихся оптимизировать рабочие нагрузки GPU.
Движение в сторону наблюдаемости в реальном времени соответствует растущей сложности моделей ИИ и инфраструктуры, необходимой для их обучения. По мере роста масштаба больших языковых моделей и других вычислительно интенсивных рабочих нагрузок такие инструменты, как NCCL Inspector, будут играть ключевую роль в обеспечении эффективной и надёжной производительности.
С этим выпуском NVIDIA продолжает укреплять свои позиции лидера в экосистеме аппаратного и программного обеспечения ИИ, предоставляя разработчикам инструменты, необходимые для расширения границ машинного обучения и HPC.
Источник изображения: Shutterstock- nvidia
- nccl
- ai
- prometheus
- grafana







