Если вы думали, что стоечные системы GB200 от Nvidia — это нечто грандиозное, то генеральный директор Дженсен Хуанг только начинает. На конференции GTC в прошлом месяце самая дорогая компания мира объявила о планах использовать фотонные интерконнекты для размещения более тысячи GPU в одной гигантской системе к 2028 году.
Компания также не собирается ждать, пока будут обеспечены цепочки поставок. За последний месяц гигант в области GPU инвестировал миллиарды в компании, специализирующиеся на оптике и интерконнектах, такие как Marvell, Coherent и Lumentum, в рамках подготовки к широкомасштабному развертыванию этих систем.
“Для всех, кто входит в нашу экосистему, нам нужно гораздо больше мощностей”, — заявил Хуанг во время своего основного доклада на GTC. “Нам нужно гораздо больше мощностей для меди; нам нужно гораздо больше мощностей для оптики; нам нужно гораздо больше мощностей для CPO; и именно поэтому мы работали со всеми вами, чтобы заложить основу для такого уровня роста”.
Однако путь Nvidia к этому моменту начался гораздо раньше. Фактически, к тому времени, когда OpenAI представила миру ChatGPT в конце 2022 года, Nvidia уже знала, что у нее возникла проблема.
На тот момент самые мощные системы гиганта GPU включали всего восемь GPU, а модели, стимулирующие бум ИИ, требовали для обучения тысяч чипов. Nvidia нужен был больший корпус или, по крайней мере, более быстрая сеть, способная эффективно распределять работу между десятками чипов.
Первый намек на это мы увидели с суперчипами Grace Hopper от Nvidia в 2023 году, но полная картина стала ясна только в начале 2024 года. Представленный на GTC в том году Grace Blackwell NVL72, чудовищная машина мощностью 120 киловатт, использует медную заднюю панель, содержащую мили кабелей, чтобы заставить 36 узлов и 72 GPU работать как один огромный ускоритель ИИ.
Медь была естественным выбором для этого, как сообщил El Reg Гилад Шайнер, старший вице-президент по сетевым технологиям в Nvidia.
“Медь — это лучшее соединение, если вы можете ее использовать”, — сказал он. “Она очень экономична, очень дешева и потребляет ноль энергии. Она очень надежна. В ней нет активных компонентов”.
Но медь не идеальна. При пропускной способности 1,8 ТБ/с кабели могли протянуться всего на несколько футов, прежде чем сигнал деградировал по мере взаимодействия GPU друг с другом. Если вы когда-либо задумывались, почему NVSwitch в NVL72 расположены в центре стойки, то это потому, что трассы были такими короткими. Ограниченная дальность действия меди также означала, что Nvidia приходилось упаковывать как можно больше GPU в одну стойку.
Два года спустя Nvidia быстро приближается к пределам меди и будет вынуждена перейти на оптику, если захочет собрать еще более крупную систему GPU.
Проблема подключаемых модулей
Когда Хуанг впервые продемонстрировал стойку NVL72 под кодовым названием Oberon, единственным коммерчески жизнеспособным способом оптического соединения двух ускорителей было использование подключаемой оптики (pluggable optics).
Эти модули размером с пачку жевательной резинки содержат все лазеры, ретаймеры и цифровую обработку сигналов, необходимые для преобразования электрических сигналов в свет и обратно.
Подключаемые модули не являются чем-то новым в сетях центров обработки данных, но их использование для масштабируемых вычислительных структур, таких как NVLink от Nvidia, сопряжено с определенными проблемами.
Для достижения пропускной способности 1,8 ТБ/с каждому GPU Blackwell потребовалось бы восемнадцать подключаемых модулей со скоростью 800 Гбит/с: девять для ускорителя и еще девять для коммутатора. Сами по себе эти подключаемые модули не потребляют много энергии — около 10–15 Вт, — но при умножении на 72 GPU эта цифра быстро растет.
Как отметил Хуанг в своем ключевом докладе на GTC 2024, оптика потребовала бы дополнительных 20 000 Вт мощности.
Однако с момента первого представления стойки Oberon многое изменилось. Достижения в области оптики, размещаемой в одном корпусе с коммутатором (co-packaged optics, CPO), помогли снизить энергопотребление.
В 2025 году Nvidia стала одним из первых поставщиков инфраструктуры ИИ, который принял CPO, интегрировав его непосредственно в свои коммутаторы Spectrum Ethernet и Quantum InfiniBand. (Micas Networks на базе Broadcom делала аналогичные шаги.)
Это резко сократило количество подключаемых модулей, необходимых для создания кластера обучения ИИ. Однако лишь недавно компания начала обсуждать использование оптики и CPO для своих фабрик NVSwitch.
NVLink переходит на оптику
После того как два года назад Хуанг отверг оптические интерконнекты как слишком энергоемкие, он вернулся к этой теме на GTC этой весной, представив Vera Rubin NVL576 и Rosa Feynman NVL1152 — две многостоечные системы, которые будут использовать фотонику для увеличения своих вычислительных доменов в восемь раз.
Если NVL576 звучит знакомо, то это потому, что это число уже упоминалось. Фактически, наряду с оригинальной стойкой NVL72, Nvidia намекала на конфигурацию с точно таким же количеством GPU, хотя, насколько нам известно, такая система никогда не развертывалась в реальных условиях.
Nvidia также кратко продвигала свои стойки Vera Rubin Ultra Kyber под брендом NVL576, прежде чем решила, что не хочет считать каждый отдельный кристалл GPU отдельным ускорителем.
Если только маркетинг или дорожная карта Nvidia снова не изменятся, фактическая Vera Rubin NVL576 будет использовать комбинацию медных и оптических интерконнектов.
“Много разговоров о том, ‘будет ли Nvidia масштабироваться по меди или по оптике?’ Мы будем делать и то, и другое”, — сказал Хуанг во время этого ключевого доклада на GTC.
По словам Иэна Бака, вице-президента по гипермасштабированию и высокопроизводительным вычислениям в Nvidia, первый уровень сети будет использовать медные интерконнекты в стойке, что не потребует изменений в GPU. Второй уровень магистрали (spine layer) будет использовать подключаемые модули.
Мы не знаем точно, какую топологию Nvidia планирует использовать для этого, но двухуровневое дерево с высокой связностью (fat tree) определенно подошло бы, и для уровня магистрали потребовался бы только один набор коммутаторов на одну стойку (всего 72 ASIC).
Для самих модулей подключаемые варианты были бы самым простым решением, но Nvidia также может выбрать оптику, размещаемую рядом с корпусом (near-packaged optics, NPO), подобную той, что продемонстрировала Lightmatter в прошлом месяце.
Для Vera Rubin Nvidia говорит об оптическом масштабировании только для своих стоек Oberon NVL72, а не для систем NVL144 Kyber.
Мы не совсем уверены, почему Nvidia приняла такое решение, но стоит отметить, что если вы можете масштабироваться оптически, вам не нужно упаковывать все в одну стойку. Поэтому, возможно, просто имело больше смысла поддерживать оптическое масштабирование на восьми стойках с точки зрения тепловых режимов и энергопотребления.
Nvidia Feynman переходит на совмещенную упаковку
Самое интересное начинается с поколения Feynman от Nvidia, поставки которого должны начаться в середине-конце 2028 года. По нашим данным, эти системы будут доступны с интерконнектами NVLink либо медными, либо с оптикой, размещенной в одном корпусе (co-packaged optical).
Nvidia довольно сдержанна в отношении того, как все это будет работать, но есть пара возможных путей.
Самый простой вариант — интегрировать CPO в ASIC коммутатора NVLink и продолжать использовать медные интерконнекты в стойке.
Это потребует двухуровневой фабрики NVSwitch и двух или трех различных ASIC коммутаторов: один наполовину оптический, один полностью оптический и, вероятно, один без CPO.
Такой подход позволил бы Nvidia поддерживать несколько конфигураций, просто меняя лотки коммутаторов NVLink или подвозя стойку магистрали по мере необходимости.
Более интересный вариант — интегрировать CPO как в коммутатор, так и в корпус GPU. Это почти наверняка приведет к появлению нескольких SKU GPU Feynman — одного с оптикой и одного без, — но это позволит свести фабрику к одному уровню.
В беседе с El Reg на GTC в прошлом месяце Шайнер отказался комментировать, какой подход планирует выбрать компания, но подчеркнул преимущества одноуровневой вычислительной фабрики.
“Масштабирование — это то, где вы не хотите строить несколько уровней, если в этом нет необходимости, потому что вы хотите минимизировать задержку между вычислительными движками”, — сказал он.
Хотя возможно встроить CPO в GPU, одноуровневая система NVL1152 потребует чертовски сложного коммутатора с высоким радиксом. Но поскольку Feynman, скорее всего, не появится до середины-конца 2028 года, мы полагаем, что это возможно.
Обеспечение средств производства
Любой из вариантов потребует достаточного количества лазерных модулей. Хотя CPO переносит большую часть оптики и обработки сигналов на корпус, лазеры обычно оставляют отдельными для удобства обслуживания. Это помогает объяснить 4 миллиарда долларов (по 2 миллиарда каждый), которые Nvidia вложила в Coherent и Lumentum, обе компании, специализирующиеся на оптических лазерах, в прошлом месяце. Если компания собирается всерьез внедрять CPO, цепочка поставок должна быть готова.
Дополнительным свидетельством того, что Nvidia переходит к CPO, размещаемой на ускорителе, является сотрудничество Nvidia с Marvell на сумму 2 миллиарда долларов, объявленное ранее на этой неделе.
В рамках этой инвестиции Nvidia будет работать с Marvell над интеграцией NVLink Fusion, лицензируемой версии ее высокоскоростной технологии интерконнекта, в пользовательские XPU для использования с ЦП Vera от гиганта GPU. Работа также распространится на разработку технологий оптического ввода-вывода, хотя компании не уточнили, в какой степени.
Как обсуждал наш сестринский ресурс The Next Platformна прошлой неделе, приобретение Marvell компанией Celestial AI за 3,25 миллиарда долларов может сыграть здесь свою роль.
Технология фотонных интерконнектов этой стартапа может быть использована для создания когерентной сетевой памяти, охватывающей несколько стоек, что может быть столь же привлекательным для Nvidia, как и для одного из крупнейших клиентов Marvell, включая AWS. Как вы, возможно, помните, AWS является одним из крупнейших клиентов NVLink Fusion от Nvidia, с планами использовать эту технологию в своих вычислительных кластерах Trainium4 следующего поколения.
В любом случае, Nvidia явно увидела свет в вопросе оптического масштабирования, и мы можем ожидать, что CPO будет играть гораздо большую роль в ее системном дизайне в будущем. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Tobias Mann




