У всех есть своя теория, зачем Nvidia выложила 20 миллиардов долларов за Groq, — и в основном эти теории ошибочны.

nvidia,groq,ии чипы,lpu,sram,поток данных

El Reg размышляет о том, что GPUzilla на самом деле получает от сделки с Groq за 20 миллиардов долларов. Nvidia лицензирует технологию Groq, но зачем? Анализ архитектуры LPU, SRAM, потока данных и потенциальных выгод для Nvidia.

Этим летом стартап в области ИИ-чипов Groq привлек 750 миллионов долларов при оценке в 6,9 миллиарда долларов. Всего три месяца спустя Nvidia отметила праздники, потратив почти в три раза больше на лицензирование своей технологии и переманивание ее талантов.

В последующие дни диванные гуру ИИ в интернете бурно обсуждали, как Nvidia может оправдать трату 20 миллиардов долларов на приобретение технологий и сотрудников Groq.

Эксперты полагают, что Nvidia знает что-то, чего не знаем мы. Теории варьируются от того, что сделка означает намерение Nvidia отказаться от HBM в пользу SRAM, до попытки обеспечить дополнительные производственные мощности у Samsung или попытки подавить потенциального конкурента. Некоторые из них более убедительны, чем другие, и у нас, конечно, есть несколько своих собственных.

Что нам известно на данный момент

Nvidia заплатила 20 миллиардов долларов за неисключительную лицензию на интеллектуальную собственность Groq, которая включает в себя ее блоки обработки языка (LPU) и сопутствующие библиотеки программного обеспечения.

LPU Groq составляют основу ее высокопроизводительного предложения inference-as-a-service, которое она сохранит и продолжит эксплуатировать без перерывов после закрытия сделки.

Соглашение явно разработано, чтобы избежать пристального внимания регулирующих органов. Nvidia не покупает Groq, она лицензирует ее технологии. За исключением… того, что она полностью покупает Groq.

Как еще описать сделку, в результате которой генеральный директор Groq Джонатан Росс и президент Санни Мадра переходят в Nvidia вместе с большей частью ее инженерного персонала?

Конечно, Groq технически остается независимой компанией с Саймоном Эдвардсом во главе в качестве ее нового генерального директора, но с уходом большей части ее талантов трудно представить, как этот стартап по производству чипов выживет в долгосрочной перспективе.

Следовательно, аргумент о том, что Nvidia просто убрала конкурента с доски, работает. Стоил ли этот шаг 20 миллиардов долларов — это другой вопрос, учитывая, что он может спровоцировать антимонопольный иск.

Должно быть, дело в SRAM, верно?

Одна из распространенных теорий о мотивах Nvidia заключается в том, что в LPU Groq используется статическая память с произвольным доступом (SRAM), которая на несколько порядков быстрее, чем высокоскоростная память (HBM), используемая в современных графических процессорах.

Один стек HBM3e может достигать пропускной способности памяти около 1 ТБ/с на модуль и 8 ТБ/с на графический процессор сегодня. SRAM в LPU Groq может быть в 10–80 раз быстрее.

Поскольку вывод больших языковых моделей (LLM) в основном ограничен пропускной способностью памяти, Groq может достигать невероятно высокой скорости генерации токенов. В Llama 3.3 70B специалисты по бенчмаркингу из Artificial Analysis сообщают, что чипы Groq могут выдавать 350 токенов в секунду. Производительность еще выше при работе со смешанными экспертными моделями, такими как gpt-oss 120B, где чипы выдавали 465 токенов в секунду.

Мы также находимся в середине глобальной нехватки памяти, и спрос на HBM никогда не был таким высоким. Поэтому мы понимаем, почему кто-то может посмотреть на эту сделку и подумать, что Groq может помочь Nvidia справиться с надвигающимся дефицитом памяти.

Самый простой ответ часто оказывается правильным — но не в этот раз.

Сожалеем, что приходится вам это говорить, но в SRAM нет ничего особенного. Она есть практически в каждом современном процессоре, включая чипы Nvidia.

У SRAM также есть довольно очевидный недостаток. Ее нельзя назвать эффективной с точки зрения занимаемого пространства. Речь идет, в лучшем случае, о нескольких сотнях мегабайт на чип по сравнению с 36 ГБ для 12-слойного стека HBM3e, что составляет в общей сложности 288 ГБ на графический процессор.

LPU Groq имеют всего 230 МБ SRAM каждый, что означает, что вам понадобятся сотни или даже тысячи из них только для запуска скромной LLM. При 16-битной точности вам потребуется 140 ГБ памяти для хранения весов модели и дополнительные 40 ГБ для каждой последовательности из 128 000 токенов.

Groq потребовалось 574 LPU, соединенных вместе с использованием высокоскоростной межсоединительной структуры, для запуска Llama 70B.

Вы можете обойти это, создав более крупный чип — каждая пластина WSE-3 от Cerebras содержит более 40 ГБ SRAM на борту, но эти чипы размером с обеденную тарелку и потребляют 23 киловатта. В любом случае, Groq не пошла по этому пути.

Достаточно сказать, что если бы Nvidia хотела сделать чип, использующий SRAM вместо HBM, ей не нужно было бы покупать Groq для этого.

Двигаясь вместе с потоком данных

Так за что Nvidia заплатила Groq?

Мы предполагаем, что это было действительно ради «архитектуры сборочной линии» Groq. Это, по сути, программируемая архитектура потока данных, созданная с явной целью ускорения вычислений линейной алгебры, выполняемых во время вывода.

Большинство современных процессоров используют архитектуру фон Неймана. Инструкции извлекаются из памяти, декодируются, выполняются, а затем записываются в регистр или сохраняются в памяти. Современные реализации вводят такие вещи, как предсказание ветвлений, но принципы в основном те же.

Поток данных работает по другому принципу. Вместо множества операций загрузки-сохранения архитектуры потока данных, по сути, обрабатывают данные по мере их потоковой передачи через чип.

Как объясняет Groq, эти конвейеры данных «перемещают инструкции и данные между функциональными блоками SIMD (single instruction/multiple data) чипа».

«На каждом этапе процесса сборки функциональный блок получает инструкции через конвейер. Инструкции сообщают функциональному блоку, куда он должен пойти, чтобы получить входные данные (какой конвейер), какую функцию он должен выполнить с этими данными и куда он должен поместить выходные данные».

По словам Groq, эта архитектура эффективно устраняет узкие места, которые замедляют работу графических процессоров, поскольку это означает, что LPU никогда не ждет, пока память или вычисления догонят.

Groq может сделать это с помощью LPU и между ними, что является хорошей новостью, поскольку LPU Groq не так сильны сами по себе. На бумаге они достигают производительности BF16, примерно на уровне RTX 3090 или производительности INT8 L40S. Но помните, что это пиковые FLOPS в идеальных условиях. В теории архитектуры потока данных должны быть способны достигать лучшей реальной производительности при той же мощности.

Стоит отметить, что архитектуры потока данных не ограничиваются конструкциями, ориентированными на SRAM. Например, архитектура потока данных NextSilicon использует HBM. Groq выбрала конструкцию, ориентированную только на SRAM, потому что это упростило задачу, но нет причин, по которым Nvidia не могла бы создать ускоритель потока данных на основе IP Groq с использованием SRAM, HBM или GDDR.

Итак, если поток данных настолько лучше, почему он не более распространен? Потому что его чертовски сложно реализовать правильно. Но Groq удалось заставить его работать, по крайней мере, для вывода.

И, как недавно выразился Тим Деттмерс из Ai2, у производителей чипов, таких как Nvidia, быстро заканчиваются рычаги, которые они могут использовать для повышения производительности чипов. Поток данных дает Nvidia новые методы, которые можно применять в поисках дополнительной скорости, а сделка с Groq означает, что компания Дженсена Хуанга находится в лучшем положении для ее коммерциализации.

Оптимизированный для вывода вычислительный стек?

Groq также предоставляет Nvidia оптимизированную для вывода вычислительную архитектуру, которой ей очень не хватало. Однако, где она подходит, — это немного загадка.

Большинство «оптимизированных для вывода» чипов Nvidia, таких как H200 или B300, принципиально не отличаются от своих «основных» собратьев. Фактически, единственное различие между H100 и H200 заключалось в том, что последний использовал более быструю HBM3e большей емкости, что просто выгодно для рабочих нагрузок с интенсивным выводом.

Напомним, что вывод LLM можно разбить на два этапа: вычислительно-интенсивный этап предварительной заливки, во время которого обрабатывается запрос, и этап декодирования с интенсивным использованием пропускной способности памяти, во время которого модель генерирует выходные токены.

Это меняется с поколением чипов Rubin от Nvidia в 2026 году. Анонсированный еще в сентябре, Rubin CPX разработан специально для ускорения вычислительно-интенсивной фазы предварительной заливки конвейера вывода, освобождая суперчипы Vera Rubin, заполненные HBM, для обработки декодирования.

Эта дезагрегированная архитектура минимизирует конкуренцию за ресурсы и помогает улучшить использование и пропускную способность.

LPU Groq оптимизированы для вывода по своей конструкции, но у них недостаточно SRAM, чтобы стать очень хорошим ускорителем декодирования. Однако они могут быть интересны в качестве спекулятивной части декодирования.

Если вы не знакомы, спекулятивное декодирование — это метод, который использует небольшую «черновую» модель для прогнозирования вывода более крупной модели. Когда эти прогнозы верны, производительность системы может удвоиться или утроиться, снижая стоимость за токен.

Эти спекулятивные черновики моделей обычно довольно малы, часто потребляя не более нескольких миллиардов параметров, что делает существующие конструкции чипов Groq правдоподобными для такой конструкции.

Нужен ли нам выделенный ускоритель для спекулятивного декодирования? Конечно, почему бы и нет. Стоит ли это 20 миллиардов долларов? Зависит от того, как вы это измеряете. По сравнению с публичными компаниями, общая стоимость которых составляет около 20 миллиардов долларов, такими как HP, Inc. или Figma, это может показаться крутым. Но для Nvidia 20 миллиардов долларов — относительно доступная сумма: только в прошлом квартале она зафиксировала 23 миллиарда долларов денежного потока от операционной деятельности. В конечном итоге это означает больше чипов и аксессуаров для продажи Nvidia.

Что насчет диверсификации литейного производства?

Пожалуй, наименее вероятным предположением, которое мы видели, является предположение о том, что Groq каким-то образом открывает дополнительные мощности литейного производства для Nvidia.

В настоящее время Groq использует GlobalFoundries для производства своих чипов и планирует строить свои детали следующего поколения на 4-нм технологическом процессе Samsung. Nvidia, напротив, выполняет почти все свое производство в TSMC и в значительной степени зависит от передовой технологии упаковки тайваньского гиганта.

Проблема с этой теорией в том, что она на самом деле не имеет никакого смысла. Не то чтобы Nvidia не могла обратиться к Samsung для производства своих чипов. Фактически, Nvidia и раньше производила чипы в Samsung — корейский гигант произвел большую часть продукции поколения Ampere от Nvidia. Nvidia требовалась передовая технология упаковки TSMC для некоторых деталей, таких как A100, но ей не нужна тайваньская компания для производства Rubin CPX. Samsung или Intel, вероятно, могут справиться с этой задачей.

Все это требует времени, и лицензирование IP Groq и наем ее команды этого не меняют.

Реальность такова, что Nvidia может ничего не делать с текущим поколением LPU Groq. Дженсен может просто играть в долгую, как он это умеет. ®

Всегда имейте в виду, что редакции некоторых изданий могут придерживаться предвзятых взглядов в освещении новостей.
7/8