Планы NVIDIA относительно блоков LPU от Groq вызывают споры в индустрии, и когда Дженсена спросили о них во время отчета о доходах за 4 квартал 2026 года, он намекнул на нечто весьма интересное.
Блоки LPU Groq укрепят позиции NVIDIA в задачах с критичной задержкой
Спецпредложения NVIDIA по поглощениям в этом году были агрессивными. Тем не менее, одним из важнейших партнерств, заключенных компанией, стало сотрудничество с Groq — соглашение о нелицензировании на сумму до 20 миллиардов долларов, что является крупнейшей инвестицией «Зеленой команды». Анонс проскочил в канун Рождества, и NVIDIA так и не раскрыла конкретных планов. Интересно, что генерального директора NVIDIA спросили о том, что его компания собирается делать с Groq во время отчета о доходах, и он дал контекстное заявление, которое может намекнуть на роль LPU в будущем предложений NVIDIA в области ИИ.
Что касается того, как мы относимся к Groq и декодеру с низкой задержкой, у меня есть несколько отличных идей, которыми я хотел бы поделиться с вами на GTC.
Итак, что мы сделаем с Groq, вы увидите на GTC, но мы расширим нашу архитектуру с помощью Groq в качестве ускорителя в той же мере, в какой мы расширили архитектуру NVIDIA с помощью Mellanox.
– Генеральный директор NVIDIA Дженсен Хуанг
Идея, лежащая в основе приобретения Groq, проста. NVIDIA хочет ориентироваться на рабочие нагрузки, чувствительные к задержкам, а в наше время доминирующей стадией стал инференс (вывод). Приложения, привязанные к агентным средам, требуют сверхбыстрых ответов, поэтому задержка начала становиться основным узким местом для вычислительных провайдеров. NVIDIA доминировала в обучении с помощью Hopper и Blackwell, но с Vera Rubin инференс — это область, где им еще предстоит укрепить свое лидерство, и блоки LPU от Groq сыграют огромную роль в установлении стандартов.
Генеральный директор NVIDIA сравнил роль Groq с приобретением Mellanox, и для тех, кто не знает, что Mellanox сделала для компании, она решила проблему «сетевого взаимодействия». Mellanox заложила основу для InfiniBand, и это позже привело к тому, что NVIDIA называет «экстремальным совместным проектированием», поэтому не будет ошибкой сказать, что это приобретение дало NVIDIA толчок в ее стратегии центров обработки данных. Groq сыграет схожую роль, и, как упоминает Дженсен, «Зеленая команда» «расширит свою архитектуру» с помощью Groq, что подразумевает появление некоторой формы интеграции LPU в масштабе стоек.

Декодирование (decode) и предварительное заполнение (prefill) известны как основные этапы инференса, и в случае агентного ИИ первый приобретает гораздо большее значение. Учитывая это, в многоагентной рабочей нагрузке декодирование позволяет агентам выполнять сложные шаги рассуждения всего за «секунды», что необходимо по мере того, как мир движется к роям взаимозависимых ИИ-агентов. С Rubin CPX NVIDIA фактически покрыла этапы предварительного заполнения с помощью своих механизмов ускорения внимания и массивных вычислений NVFP4.
Для декодирования NVIDIA будет использовать Groq, как упомянул Дженсен. LPU используют встроенную SRAM для обеспечения пропускной способности в десятки терабайт в секунду, и мы уже видели широкое применение SRAM такими компаниями, как Cerebras с WSE-3 и Microsoft с Maia 300. Что касается того, где именно мы можем увидеть интеграцию LPU, существует две основные теории. Первая заключается в том, что NVIDIA может разработать гибридные вычислительные узлы в предложениях в масштабе стоек, с несколькими LPU, соединенными через унифицированное соединение.

GF Securities полагает (через Jukan), что NVIDIA может представить «LPX-стойку» на GTC этого года, содержащую 256 блоков LPU в одном устройстве. Развивая эту информацию, мы полагаем, что для соединений LPU-к-LPU NVIDIA будет использовать нативный плезиохронный протокол «чип-к-чипу». Для LPU-к-GPU мы можем увидеть включение NVLink Fusion для обработки массивной выгрузки KV-кэша с GPU во время фазы предварительного заполнения. Другой рассматриваемый вариант — это размещение LPU в качестве встроенных блоков внутри GPU Feynman с помощью гибридного соединения, но на данный момент вариант в масштабе стоек выглядит гораздо более вероятным.

Идея состоит в том, что блоки LPU Groq сыграют роль, аналогичную роли Mellanox в сетевых технологиях, и что эта гибридная архитектура даст NVIDIA преимущество в задачах, чувствительных к задержкам. На этом отчете о доходах Дженсен уже сообщил, что вычисления и выручка теперь растут в соотношении 1:1, что обусловлено более агрессивной эволюцией «прикладного уровня» ИИ. Мы ожидаем, что NVIDIA официально представит свои планы относительно LPU на GTC этого года.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Muhammad Zuhair




