На конференции GTC 2026, проходящей здесь, в Сан-Хосе, штат Калифорния, компания Nvidia представила более подробную информацию о своих новых центральных процессорах Vera для центров обработки данных с 88 ядрами, заявив о впечатляющем 50%-ном приросте производительности по сравнению со стандартными ЦП. Этот рост обусловлен увеличением показателя IPC на 1,5X благодаря ядрам Olympus и инновационной архитектуре с высокой пропускной способностью, которая, по утверждению Nvidia, обеспечивает самую высокую однопоточную производительность на рынке. Компания также анонсировала новую архитектуру стоек ЦП Vera, которая объединяет 256 жидкостных охлаждаемых процессоров в одной стойке для рабочих нагрузок, ориентированных на ЦП, заявляя о 6-кратном увеличении пропускной способности ЦП и удвоении производительности в рабочих нагрузках агентского ИИ.
Эволюция ЦП Vera и его интеграция в развертываемые системы масштаба стоек знаменует выход Nvidia на рынок прямых продаж ЦП, позиционируя компанию как конкурента Intel и AMD на традиционном рынке центральных процессоров. Это не считая конкуренции с многочисленными вариантами специализированных процессоров Arm, используемых крупнейшими мировыми гиперскейлерами. Это не стало полным сюрпризом, последовав за объявлением компании о том, что Meta теперь будет развертывать несколько поколений систем Nvidia, состоящих только из ЦП, в своей инфраструктуре. Nvidia продолжит использовать эти процессоры и для своих систем, ориентированных на графические процессоры, таких как платформа Vera Rubin, которую мы более подробно рассмотрели здесь.
Nvidia впервые представила свои ЦП Grace первого поколения на GTC в 2022 году, предвещая, что дальнейшая эволюция этой серии в конечном итоге позволит ей конкурировать на более широком рынке ЦП. Новые процессоры нацелены как на рабочие нагрузки, ориентированные на ИИ, так и на более общие сценарии использования, с сильным акцентом на первую категорию. Расширение как возможностей, так и целевых рынков Nvidia создаст жесткую конкуренцию для AMD и Intel в борьбе за сокеты в центрах обработки данных ИИ. Чипы уже запущены в полномасштабное производство и будут доступны партнерам Nvidia во второй половине этого года. Давайте подробнее рассмотрим новые чипы, а затем архитектуру масштаба стоек.
Nvidia разработала ЦП Vera, чтобы предоставить лучшее из многих миров, с намерением объединить большое количество ядер ЦП для гипермасштабируемых облаков с высокой однопоточной производительностью игровых ЦП и энергоэффективностью мобильных чипов, и все это с целью ускорения общих задач, управляемых ГП, в агентском ИИ, обучении и инференсе, таких как выполнение Python, запросы SQL и компиляция кода.
В целом Nvidia заявляет о 1,5-кратной производительности на песочницу по сравнению с конкурентами x86, 3-кратном увеличении пропускной способности памяти на ядро и удвоенной эффективности. Для достижения этих целей компания разработала 88-ядерный ЦП со 144 потоками, что является увеличением по сравнению с 72 ядрами Grace первого поколения. Nvidia также заявляет, что ядра обеспечивают 1,5-кратное улучшение пропускной способности инструкций за такт (IPC), что является огромным скачком по сравнению с другими конкурирующими архитектурами, которые, как правило, получают прирост в размере однозначного числа или низких двузначных процентов с каждым поколением. В Grace предыдущего поколения Nvidia использовала готовые ядра Arm Neoverse, но фирма уточняет, что новые ядра Olympus в Vera являются «разработкой Nvidia», что сигнализирует о том, что компания внесла пользовательские модификации в эталонный дизайн.
Ядра Olympus на базе Arm v9.2-A поддерживают пространственный многопоточный режим (spatial multi-threading), который физически изолирует различные компоненты конвейера, не используя временное разделение ключевых элементов, таких как блоки исполнения, кэши и регистровые файлы, с другим потоком, работающим на том же ядре. Это контрастирует со стандартным временным разделением, используемым в других реализациях одновременной многопоточности (SMT), процессе, при котором потоки по очереди используют ресурсы. Пространственный многопоточный режим увеличивает параллелизм на уровне инструкций (ILP), пропускную способность и предсказуемость производительности, извлекая инструкции из других потоков, когда элементы исполнения простаивают, тем самым обеспечивая полную утилизацию.
По сути, это позволяет обоим потокам по-настоящему работать одновременно на одном ядре, тогда как в стандартной реализации SMT потоки фактически по очереди работают на одном ядре. Естественно, это будет благом для сред с множеством арендаторов (multi-tenancy).
Nvidia располагает все 88 ядер в едином домене, поэтому здесь нет замедляющих задержки эксцентриситетов NUMA, что резко контрастирует с текущими конкурентами x86 с большим количеством ядер. Это имеет драматические последствия для задержки, предсказуемости, пропускной способности и простоты программирования. Фирма не раскрыла всех подробностей того, как ей удалось достичь этого подвига, сохраняя при этом адекватную задержку для каждого ядра, но чип оснащен новым поколением Fabric когерентности Nvidia (SCF) — сеточной топологией, построенной на базе согласованной сетчатой сети CMN-700 от Arm, используемой в ядрах Arm Neoverse Grace. Arm перешла на более новую сетку Neoverse CMN S3 в своих последних разработках, и Vera, вероятно, использует эту конструкцию или ее вариант.
Сетчатая сеть может обеспечить впечатляющую пропускную способность памяти для ядер в совокупности, и даже больше, когда определенные ядра более требовательны к пропускной способности, чем другие. Grace поддерживала пропускную способность памяти 546 ГБ/с к сетке, что составляет в среднем 7,6 ГБ/с на ядро. Vera более чем вдвое увеличивает это значение до 1,2 ТБ/с пропускной способности, питаемой 1,5 ТБ модулей SOCAMM LPPDDR5 (увеличение емкости в 3 раза), что составляет в среднем 13,6 ГБ/с на ядро в условиях полной нагрузки. Важно отметить, что архитектура теперь поддерживает до 80 ГБ/с пропускной способности к любому отдельному ядру, когда условия нагрузки не являются согласованными в сетке, что является впечатляющим увеличением для потоков, требовательных к пропускной способности.
Путь исполнения включает в себя 10-канальный блок декодирования инструкций, нейронный предсказатель переходов, поддерживающий два предсказания переходов за такт, специализированный механизм предварительной выборки для анализа графовых баз данных и буфер инструкций, оптимизированный для PyTorch.
Чип полностью поддерживает конфиденциальные вычисления (Confidential Computing), что является заметным шагом вперед по сравнению с Grace, позволяющим создавать полностью защищенные домены ЦП+ГП. ЦП также оснащен межкристаллическим интерфейсом NVLink-C2C с пропускной способностью до 1,8 ТБ/с, что вдвое превышает 900 ГБ/с соединение Grace и в семь раз быстрее, чем PCIe 6.0. Он также поддерживает двухпроцессорные (2P) конфигурации.
В целом Vera поддерживает полный набор технологий, ожидаемых от современного процессора для центров обработки данных, включая поддержку PCIe 6.0 и CXL 3.1, но с дизайном вычислений, ориентированным на пропускную способность и задержку, что делает его уникально подходящим для использования в рабочих процессах ИИ.
Grace уже послужила фундаментальным строительным блоком во многих системах Nvidia ГП+ЦП, включая некоторые из самых быстрых суперкомпьютеров ИИ на планете, но расширенная цель Nvidia — использовать Vera в чистых стойках ЦП, которые могут быть более широко развернуты.
Стойка ЦП Vera отвечает этой цели: 256 жидкостных охлаждаемых ЦП Vera сопряжены с 74 DPU Bluefield-4 и сетевым оборудованием ConnectX SuperNIC. Стойка вмещает до 400 ТБ LPDDR5 и совокупную пропускную способность памяти 300 ТБ/с. Это питает 45 056 потоков, которые, по данным Nvidia, поддерживают 22 500 одновременных сред ЦП, работающих независимо.
Nvidia представила бенчмарки в широком спектре рабочих нагрузок, заявляя об улучшении производительности от 1,8 до 2,2 раза по сравнению с Grace в сценариях скриптинга, компиляции, анализа данных, графового анализа и HPC, среди прочего.
Естественно, можно ожидать, что эта система будет развернута у Meta*, которая недавно объявила о партнерстве с Nvidia по системам, состоящим только из ЦП, но Nvidia заявляет, что предложит систему стоек ЦП Vera также гиперскейлерам, включая Oracle, Coreweave, Nebius, Alibaba и другим.
Широкий спектр OEM-производителей и ODM-производителей также предоставит одно- и двухсокетные серверы для более широкого рынка для множества вариантов использования, включая тяжеловесов отрасли, таких как Dell, HPE, Lenovo, Supermicro, Foxconn и многие другие. ЦП Vera также будут использоваться в системах Nvidia HGX NVL8.
Возможно, самое важное, эти стойки также послужат неотъемлемой частью более широкой платформы Vera Rubin от Nvidia, которая включает семь чипов, в том числе графический процессор Rubin, коммутатор NVLink6 для межсетевого взаимодействия в масштабе стоек, SuperNIC ConnectX-9 для сетевых задач, DPU Bluefield 4, коммутатор Spectrum-X 102.4T с совместным размещением оптики и LPU Groq 3 от Nvidia.
ЦП Vera находятся в полномасштабном производстве, а поставки запланированы на вторую половину этого года.
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Paul Alcorn




