BTCC / BTCC Square / CryptoHawkX /
NVIDIA Dynamo решает проблему узких мест KV Cache в AI-инференсе

NVIDIA Dynamo решает проблему узких мест KV Cache в AI-инференсе

Published:
2025-09-18 22:30:38

Ребека Моэн 18 сентября 2025 19:24

NVIDIA Dynamo представляет технологию выгрузки KV Cache для решения проблем с памятью при AI-инференсе, повышая эффективность и снижая затраты для больших языковых моделей.

NVIDIA представила свое новое решение Nvidia Dynamo, предназначенное для решения растущей проблемы узких мест Key-Value (KV) Cache в AI-инференсе, особенно с большими языковыми моделями (LLM), такими как GPT-OSS и DeepSeek-R1.

Понимание KV Cache

KV Cache является важным компонентом механизма внимания LLM, хранящим промежуточные данные во время начальной фазы инференса. Однако по мере увеличения длины входных промптов KV Cache растет, требуя значительной памяти GPU.

Решение Dynamo

NVIDIA Dynamo представляет выгрузку KV Cache, которая переносит кэш из памяти GPU на доступные решения хранения, такие как оперативная память CPU и SSD. Эта стратегия помогает избежать затрат на пересчет и улучшает пользовательский опыт.

Преимущества выгрузки

Благодаря выгрузке KV Cache сервисы инференса могут поддерживать более длинные контекстные окна, улучшать параллелизм и снижать инфраструктурные затраты.

Стратегическая выгрузка

Выгрузка особенно полезна в сценариях с длинными сессиями, высокой параллельной нагрузкой или общим контентом.

Внедрение и интеграция

Система Dynamo KV Block Manager (KVBM) обеспечивает выгрузку кэша, интегрируясь с движками AI-инференса, такими как NVIDIA TensorRT-LLM и vLLM.

Принятие в отрасли

Такие игроки отрасли, как Vast и WEKA, продемонстрировали успешные интеграции с Dynamo, показав значительное улучшение пропускной способности.

Источник изображения: Shutterstock

  • nvidia
  • ai инференс
  • kv кэш

Перевод: CryptoHawkX

|Square

Установите приложение BTCC, чтобы начать свое путешествие в мир крипты

Начать сегодня Отсканируйте, чтобы присоединиться к 100 млн + наших пользователей