NVIDIA повышает производительность ИИ с помощью системы GB200 NVL72 и моделей OpenAI gpt-oss
Зак Андерсон 05 августа 2025, 23:50
NVIDIA совместно с OpenAI объявила о значительном прогрессе в области искусственного интеллекта, достигнув производительности до 1,5 миллиона токенов в секунду (TPS) с помощью системы GB200 NVL72 и оптимизированных моделей gpt-oss.

Улучшенные возможности ИИ
Модели gpt-oss, известные своими возможностями текстовой обработки, используют архитектуру Mixture of Experts (MoE) с активациями SwigGLU. Они поддерживают контекст длиной 128k и оптимизированы под архитектуру NVIDIA Blackwell, выпускаясь в точности FP4 для совместимости с 80 ГБ GPU.
Совместные разработки
NVIDIA и OpenAI работают над интеграцией моделей с открытыми фреймворками, включая Hugging Face Transformers и NVIDIA TensorRT-LLM, чтобы улучшить производительность и доступность для разработчиков. Обучение модели gpt-oss-120b потребовало более 2,1 миллиона GPU-часов.
Технические характеристики
Модели gpt-oss-20b и gpt-oss-120b предлагают различные конфигурации параметров, включая количество трансформерных блоков и экспертов, для оптимизации работы на платформах NVIDIA.
Варианты развертывания
NVIDIA предлагает несколько вариантов развертывания, включая использование vLLM и TensorRT-LLM для настройки серверов. Система GB200 NVL72 поддерживает высокую пропускную способность, обслуживая до 50 000 пользователей одновременно.
Перспективы
NVIDIA планирует расширить применение моделей gpt-oss в облачных и edge-решениях, укрепляя инфраструктуру ИИ и улучшая опыт разработчиков.
Источник изображения: Shutterstock
- nvidia
- openai
- ai модели
- gb200 nvl72
Перевод: M1n3r