Стойки Nvidia, Groq 3 LPU и Groq LPX пополнили платформу Rubin на конференции GTC

Nvidia Rubin Groq Lpu инференс ии tomshardware.com

На GTC 2026 Nvidia представила ускоритель Groq 3 и стойку Groq LPX как часть платформы Vera Rubin. Эти чипы, ориентированные на инференс и насыщенные SRAM, обеспечивают большую пропускную способность памяти, чтобы помочь Rubin обеспечить низколатентное взаимодействие с моделями ИИ, охватывающими триллионы параметров и контексты в миллионы токенов. — tomshardware.com

Платформа Nvidia Vera Rubin призвана значительно усилить следующее поколение центров обработки данных ИИ, или «фабрик», как их называет генеральный директор Дженсен Хуанг, когда эти системы начнут поступать в конце этого года. Сегодня, во время своего основного доклада на GTC, Хуанг рассказал, как Nvidia использует интеллектуальную собственность, приобретенную у Groq в прошлом году, для расширения возможностей Rubin. Платформа Rubin теперь включает новый чип Nvidia Groq 3 LPU — ускоритель инференса, который повышает способность этих систем выдавать токены в больших объемах и с низкой задержкой для высокой интерактивности на переднем крае моделей ИИ. Напомним, что платформа Rubin уже включает шесть чипов, из которых Nvidia строит системы в масштабе стоек и расширяет их до фабрик ИИ: сам графический процессор Rubin, центральный процессор Vera, коммутаторы масштабирования NVLink 6, интеллектуальный сетевой адаптер ConnectX 9, блок обработки данных Bluefield 4 и коммутатор масштабирования Spectrum-X с оптикой, упакованной вместе. Groq 3 LPU становится еще одним строительным блоком для Rubin в масштабе. В отличие от большинства ускорителей ИИ, которые используют HBM в качестве уровня рабочей памяти, каждый Groq 3 LPU включает 500 МБ SRAM — ту же память, что используется для сверхбыстрых кэшей в ЦП и ГП. Это ничтожно мало по сравнению с гораздо более вместительными 288 ГБ HBM4 на каждом графическом процессоре Rubin, но, как и следовало ожидать, эта SRAM обеспечивает пропускную способность 150 ТБ/с, что намного больше, чем 22 ТБ/с той же HBM. Для чувствительных к пропускной способности операций декодирования ИИ значительный прирост пропускной способности чипа Groq 3 предлагает заманчивые преимущества для приложений инференса. В свою очередь, Nvidia построит стойки Groq 3 LPX, состоящие из 256 Groq 3 LPU. Эта стойка предлагает 128 ГБ SRAM с пропускной способностью 40 ПБ/с для ускорения инференса и соединяет эти чипы выделенным интерфейсом масштабирования со скоростью 640 ТБ/с на стойку. Nvidia рассматривает Groq LPX как сопроцессор для Rubin, который повысит производительность декодирования «на каждом уровне модели ИИ для каждого токена», по словам вице-президента Nvidia по гипермасштабированию Иэна Бака, и позиционирует Rubin для обслуживания следующего рубежа ИИ: мультиагентных систем, которым необходимо обеспечивать интерактивную производительность при инференсе моделей с триллионами параметров и контекстными окнами в миллионы токенов. По мере того как агенты ИИ в этих мультиагентных системах начинают больше общаться с другими ИИ, а не с людьми, просматривающими окна чат-ботов, граница требований к отзывчивости также смещается. То, что может показаться разумной скоростью генерации токенов в секунду для человека, является ледниковым для агента ИИ. В будущем мультиагентных систем, которое описывает Бак, комбинация графических процессоров Rubin и LPU Groq переводит нас из мира, где 100 токенов в секунду — это разумная пропускная способность, в мир, где для межсетевого взаимодействия агентов ИИ это 1500 TPS или более. Добавление Groq 3 LPU в арсенал Rubin может помочь платформе противостоять конкурентам на рубеже инференса с низкой задержкой. Cerebras, чьи движки на базе кремниевых пластин объединяют огромные объемы SRAM и вычислений для инференса с низкой задержкой с передовыми моделями, часто подкалывала Nvidia по поводу предполагаемых недостатков ее графических процессоров для этой цели, а такие крупные клиенты, как OpenAI, подписались на мощности Cerebras для обслуживания некоторых своих передовых моделей с благоприятными характеристиками задержки этой платформы. Бак также намекнул, что Groq 3 LPU может привести к уменьшению роли ускорителя инференса Rubin CPX, заявив, что в настоящее время компания сосредоточена на интеграции стойки Groq 3 LPX с Rubin. Хотя он не предоставил более подробной информации, такой сдвиг в фокусе был бы логичен в современном мире с ограниченной памятью, поскольку оба чипа призваны обеспечить схожие улучшения производительности инференса, а LPU Groq не требует большого объема памяти GDDR7, который необходим каждому модулю Rubin CPX. Мы работаем на месте проведения GTC на этой неделе и изучаем, что слияние интеллектуальной собственности Groq и Nvidia означает для будущего инференса ИИ посредством бесед и сессий на мероприятии. Оставайтесь с нами.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: