NVIDIA: Покупка Groq поможет расширить архитектуру как «ускоритель» для декодирования с низкой задержкой

Nvidia Groq Lpu задержка Gtc ии wccftech.com

Планы NVIDIA по использованию блоков LPU Groq вызвали обсуждения. На отчете о доходах CEO Дженсен Хуанг намекнул, что LPU укрепят позиции компании в задачах с критичной задержкой, сравнив это с приобретением Mellanox. Ожидается анонс на GTC. — wccftech.com

Планы NVIDIA относительно блоков LPU от Groq вызывают споры в индустрии, и когда Дженсена спросили о них во время отчета о доходах за 4 квартал 2026 года, он намекнул на нечто весьма интересное.

Блоки LPU Groq укрепят позиции NVIDIA в задачах с критичной задержкой

Спецпредложения NVIDIA по поглощениям в этом году были агрессивными. Тем не менее, одним из важнейших партнерств, заключенных компанией, стало сотрудничество с Groq — соглашение о нелицензировании на сумму до 20 миллиардов долларов, что является крупнейшей инвестицией «Зеленой команды». Анонс проскочил в канун Рождества, и NVIDIA так и не раскрыла конкретных планов. Интересно, что генерального директора NVIDIA спросили о том, что его компания собирается делать с Groq во время отчета о доходах, и он дал контекстное заявление, которое может намекнуть на роль LPU в будущем предложений NVIDIA в области ИИ.

Что касается того, как мы относимся к Groq и декодеру с низкой задержкой, у меня есть несколько отличных идей, которыми я хотел бы поделиться с вами на GTC.

Итак, что мы сделаем с Groq, вы увидите на GTC, но мы расширим нашу архитектуру с помощью Groq в качестве ускорителя в той же мере, в какой мы расширили архитектуру NVIDIA с помощью Mellanox.

– Генеральный директор NVIDIA Дженсен Хуанг

Идея, лежащая в основе приобретения Groq, проста. NVIDIA хочет ориентироваться на рабочие нагрузки, чувствительные к задержкам, а в наше время доминирующей стадией стал инференс (вывод). Приложения, привязанные к агентным средам, требуют сверхбыстрых ответов, поэтому задержка начала становиться основным узким местом для вычислительных провайдеров. NVIDIA доминировала в обучении с помощью Hopper и Blackwell, но с Vera Rubin инференс — это область, где им еще предстоит укрепить свое лидерство, и блоки LPU от Groq сыграют огромную роль в установлении стандартов.

Генеральный директор NVIDIA сравнил роль Groq с приобретением Mellanox, и для тех, кто не знает, что Mellanox сделала для компании, она решила проблему «сетевого взаимодействия». Mellanox заложила основу для InfiniBand, и это позже привело к тому, что NVIDIA называет «экстремальным совместным проектированием», поэтому не будет ошибкой сказать, что это приобретение дало NVIDIA толчок в ее стратегии центров обработки данных. Groq сыграет схожую роль, и, как упоминает Дженсен, «Зеленая команда» «расширит свою архитектуру» с помощью Groq, что подразумевает появление некоторой формы интеграции LPU в масштабе стоек.

NVIDIA: Покупка Groq поможет расширить архитектуру как «ускоритель» для декодирования с низкой задержкой
Ссылка изображения: NVIDIA

Декодирование (decode) и предварительное заполнение (prefill) известны как основные этапы инференса, и в случае агентного ИИ первый приобретает гораздо большее значение. Учитывая это, в многоагентной рабочей нагрузке декодирование позволяет агентам выполнять сложные шаги рассуждения всего за «секунды», что необходимо по мере того, как мир движется к роям взаимозависимых ИИ-агентов. С Rubin CPX NVIDIA фактически покрыла этапы предварительного заполнения с помощью своих механизмов ускорения внимания и массивных вычислений NVFP4.

Для декодирования NVIDIA будет использовать Groq, как упомянул Дженсен. LPU используют встроенную SRAM для обеспечения пропускной способности в десятки терабайт в секунду, и мы уже видели широкое применение SRAM такими компаниями, как Cerebras с WSE-3 и Microsoft с Maia 300. Что касается того, где именно мы можем увидеть интеграцию LPU, существует две основные теории. Первая заключается в том, что NVIDIA может разработать гибридные вычислительные узлы в предложениях в масштабе стоек, с несколькими LPU, соединенными через унифицированное соединение.

NVIDIA: Покупка Groq поможет расширить архитектуру как «ускоритель» для декодирования с низкой задержкой

GF Securities полагает (через Jukan), что NVIDIA может представить «LPX-стойку» на GTC этого года, содержащую 256 блоков LPU в одном устройстве. Развивая эту информацию, мы полагаем, что для соединений LPU-к-LPU NVIDIA будет использовать нативный плезиохронный протокол «чип-к-чипу». Для LPU-к-GPU мы можем увидеть включение NVLink Fusion для обработки массивной выгрузки KV-кэша с GPU во время фазы предварительного заполнения. Другой рассматриваемый вариант — это размещение LPU в качестве встроенных блоков внутри GPU Feynman с помощью гибридного соединения, но на данный момент вариант в масштабе стоек выглядит гораздо более вероятным.

NVIDIA: Покупка Groq поможет расширить архитектуру как «ускоритель» для декодирования с низкой задержкой
Предварительный рендеринг возможного гибридного вычислительного лотка NVIDIA с LPU | Ссылка изображения: Wccftech

Идея состоит в том, что блоки LPU Groq сыграют роль, аналогичную роли Mellanox в сетевых технологиях, и что эта гибридная архитектура даст NVIDIA преимущество в задачах, чувствительных к задержкам. На этом отчете о доходах Дженсен уже сообщил, что вычисления и выручка теперь растут в соотношении 1:1, что обусловлено более агрессивной эволюцией «прикладного уровня» ИИ. Мы ожидаем, что NVIDIA официально представит свои планы относительно LPU на GTC этого года.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: