«UALink» наметил курс на оптимизированные межсоединения дата-центров для ИИ

Ualink Ai Hpc Interconnect Open Standard Data Center tomshardware.com

Несмотря на широкую поддержку отрасли, внедрение UALink может быть замедлено из-за отсутствия ряда функций, таких как In-Network Collectives и спецификация PHY 128G. — tomshardware.com

UALink (сокращение от Ultra Accelerator Link) — это новая технология межсоединений, разработанная для обеспечения высокоскоростной связи с низкой задержкой между AI-ускорителями (ASIC, GPU, FPGA, NPU, XPU) и другими вычислительными устройствами в пределах логической области масштабирования. Многие рассматривают ее как важный путь вперед для будущего дата-центров искусственного интеллекта благодаря планируемым преимуществам в производительности, стоимости и энергоэффективности, не говоря уже о том, что как открытый стандарт она уменьшит зависимость от одного поставщика. В 2025 году консорциум UALink опубликовал версию 1.0 спецификации UALink, после чего разработчики аппаратного обеспечения смогут официально внедрить технологию в свои AI/HPC-ускорители и коммутаторы ASIC, необходимые для создания AI-кластеров с числом ускорителей до 1024. Но хотя технология UALink широко поддерживается отраслью, а ее спецификация, определяющая связь между ускорителями, доступна уже сейчас, ее массовое внедрение займет несколько лет. UALink позволит программистам рассматривать множество ускорителей как единый процессор с большим пулом памяти (или, по крайней мере, обеспечивать параллелизм с минимальными усилиями со стороны разработчиков) и значительно упростит сетевое взаимодействие между процессорами. UALink был разработан как конкурент проприетарной технологии NVLink от Nvidia, которая поддерживается широким кругом игроков отрасли, включая AMD, Arm, AWS, Broadcom, Cadence, Intel, Google, Marvell, Meta*, Microsoft и Synopsys, и это лишь некоторые из них. Спецификация UALink 200G 1.0 рассчитана на поддержку до 1024 ускорителей на домен (или кластер) со скоростью 212,5 ГТ/с, обеспечивая прямой доступ к памяти между ускорителями с использованием простых операций загрузки/сохранения и атомарных операций, и таким образом функционирует как единая система. UALink построен на основе облегченного стека протоколов, включающего уровень протокола (UPLI), уровень транзакций (TL), канальный уровень (DL) и физический уровень (PL). На физическом уровне UALink повторно использует стандартное сигнальное решение PHY Ethernet (такое как 100GBASE-KR1, 200GBASE-KR2 и 800GBASE-KR4) для упрощения реализации, но вводит пользовательское кадрирование, прямую коррекцию ошибок (FEC) и оптимизацию задержек. Каждая последовательная линия работает со скоростью 212,5 ГТ/с, обеспечивая эффективную передачу 200 ГТ/с данных на линию после накладных расходов FEC. Поддерживаются конфигурации x1, x2 или x4 каналов, обеспечивающие до 800 ГТ/с пропускной способности в каждом направлении на канал. Канальный уровень форматирует трафик в FLIT размером 640 байт с CRC и заголовками сегментов, в то время как уровень TL сжимает сообщения запросов и ответов до полезной нагрузки размером 4–16 байт для снижения задержек и контроля площади кристалла. По словам разработчиков UALink, протокол обеспечивает детерминированные задержки ниже 1 мкс и достигает до 93% эффективного использования пропускной способности, что очень много. UALink не заменяет Ethernet, PCIe или CXL, но разработан для сосуществования с этими технологиями в узлах системы, предназначен исключительно для прямого трафика между ускорителями. Что касается системной архитектуры, то она сосредоточена вокруг коммутаторов UALink (ULS), которые обеспечивают связь ускорителей точка-точка внутри стоек и между ними. Эти коммутаторы должны поддерживать без потерь доставку, работу без блокировок и изоляцию виртуальных кластеров. Каждому ускорителю назначается 10-битный идентификатор маршрутизации (отсюда ограничение в 1024 ускорителя на кластер), а коммутаторы поддерживают таблицы маршрутизации для каждого порта для поддержки топологий масштабирования. Стандарт включает механизмы изоляции сбоев, обнаружения и локализации ошибок, которые ограничивают сбои одним виртуальным кластером, не затрагивая другие в “большом” масштабируемом кластере. Хотя версия UALink 1.0 уже доступна, технология все еще находится в разработке, поскольку будущие версии, как ожидается, добавят когерентность памяти (уже поддерживается NVLink) и функции виртуализации. Сегодня NVLink от Nvidia позволяет компании и ее партнерам создавать кластеры до 576 GPU (GPU-пакетов), обеспечивая масштабируемые размеры рабочих сред с высокой пропускной способностью и низкой задержкой. В отличие от этого, масштабируемая среда ускорителей AMD серии Instinct MI300 (или GPU Nvidia H100) ограничена восемью GPU на корпус, поскольку связь за пределами корпуса осуществляется через Ethernet. Ethernet, даже на скоростях 400G/800G с RDMA (RoCE), по сути, оптимизирован для пакетной передачи данных в масштабируемых системах, а не для операций загрузки/сохранения с семантикой памяти и низкой задержкой, требуемых для межсоединений AI-ускорителей в масштабируемых системах. В отличие от этого, UALink обеспечивает прямой доступ к памяти между ускорителями, поддерживает атомарные операции и сохраняет семантику упорядочивания между конечными точками. Даже с различными оптимизациями Ethernet вносит более высокую задержку при сквозном обмене (~2 мкс+) и накладные расходы на программный стек, что ограничивает Ethernet даже для современных дата-центров. В отличие от этого, UALink нацелен на сквозную задержку менее 1 мкс, поддерживает без потерь управление потоком и работает с FLIT фиксированного размера и маршрутизацией на основе идентификатора. Даже высокопроизводительные коммутаторы Ethernet, такие как Tomahawk Ultra от Broadcom, требуют, чтобы сетевые карты преобразовывали команды загрузки/сохранения в команды RDMA, что добавляет задержку и сложность, которые UALink обходит, поддерживая нативные аппаратные сообщения. Поскольку консорциум UALink насчитывает более 90 членов, можно предположить, что десятки компаний в настоящее время работают над различными AI и HPC-ускорителями с поддержкой UALink. Кроме того, компании, занимающиеся сетевыми решениями, работают над коммутаторами. Наконец, Synopsys уже около года предлагает IP и PHY для UALink, что значительно упрощает реализацию технологии. Интеграция готовых IP и PHY от таких поставщиков, как Synopsys или Cadence, в AI-ускоритель или систему на кристалле обычно занимает от 12 до 24 месяцев, в зависимости от сложности чипа, зрелости проекта и некоторых других факторов, специфичных для разработки. Следовательно, процессоры с поддержкой UALink могут появиться через несколько месяцев или кварталов. Synopsys заявляет, что интерес к технологии значителен. “UALink — это поистине открытый стандарт, который привлекает значительный интерес как со стороны компаний-производителей ускорителей, так и коммутаторов”, — сказал Приянк Шукла, директор по управлению продуктами HPC IP в Synopsys, в интервью Tom’s Hardware. “Мы успешно поставили нашим клиентам в сегментах коммутаторов и ускорителей наше решение Synopsys UALink 200G IP, которое включает в себя как контроллер, так и PHY IP”. Среди компаний, которые уже подтвердили разработку процессоров с поддержкой UALink, — AMD (Instinct MI400, серия MI500) и Marvell (как вариант для пользовательских кремниевых решений, ориентированных на гиперскейлеров), хотя ожидается, что вскоре технологию поддержат и другие. Однако развертывание коммутаторов UALink для серии MI400 зависит от того, насколько быстро мы увидим коммутационные кремниевые решения UALink в 2026 году. В отсутствие таких коммутаторов серия MI400 может быть вынуждена использовать UALink-over-Ethernet, что является неидеальным вариантом использования. По сути, похоже, что доступность коммутаторов станет основным фактором, замедляющим принятие технологии UALink. Astera Labs в настоящее время разрабатывает интеллектуальные коммутационные матрицы, формирователи сигналов, контроллеры и многое другое. Компания ожидает выпустить свои первые решения UALink в 2026 году для решения проблем масштабируемости, но не раскрывает дальнейших планов. Компания также отмечает значительный интерес к технологии. “Хотя я не могу говорить о конкретных сроках выпуска продукции, могу сказать, что импульс экосистемы UALink превзошел наши ожидания с момента выпуска спецификации 1.0 в апреле”, — сказал Крис Петерсен, научный сотрудник по технологиям и архитектуре решений в Astera Labs, в интервью Tom’s Hardware. “Наши клиенты, особенно гиперскейлеры, постоянно говорят нам, что три фактора определяют их решения по инфраструктуре: им нужны открытые стандарты с поддержкой нескольких поставщиков, они ориентированы на общую стоимость владения и нуждаются в ускоренном выводе на рынок для развертывания вычислительных мощностей, которые требуют передовые приложения ИИ”. В отличие от Astera Labs, Broadcom, которая разрабатывает пользовательские AI-процессоры для своих клиентов, а также различное коммуникационное оборудование для дата-центров, кажется, более сдержанной, несмотря на то, что является одним из учредителей группы разработчиков UALink. Компания не может говорить о том, создает ли она ускорители с поддержкой UALink для своих клиентов, и позиционирует свои решения Tomahawk Ultra Ethernet для масштабируемых соединений AI-ускорителей. “Мы можем сказать, что видим огромный импульс в использовании Ethernet для масштабирования”, — сообщил нам представитель Broadcom. “Tomahawk Ultra был специально разработан для масштабируемого Ethernet-соединения AI и доступен уже сегодня”. Хотя спецификация UALink 1.0 готова и может быть использована для создания коммутационного оборудования, в технологии не хватает нескольких элементов, включая спецификацию DL/PL 128G (ожидалась в июле 2025 года, но нет информации о ее окончательном утверждении), аппаратное ускорение коллективных операций In-Network Collectives (INC, ожидалось в декабре 2025 года) и спецификацию чиплета UCIe PHY 128G/200G. Ни одна из этих функций не является обязательной для создания коммутационного оборудования, поэтому создание ASIC-коммутатора, соответствующего стандарту UALink 1.0, возможно. Однако спецификация DL/PL 128G будет важна для дизайнов коммутаторов следующего поколения, смешанных скоростей или прямого обновления, поддерживающих более низкую скорость передачи данных. Тем временем INC требуется для эффективной поддержки крупномасштабного обучения и взаимодействия с будущим оборудованием. Без INC коллективные операции должны выполняться в программном обеспечении или через сетевые карты, что увеличивает задержку и подрывает преимущества UALink. “Консорциум UALink активно работает над дополнительными спецификациями, включая управление, интеграцию чиплета UCIe IO и In-Network Collectives, которые еще больше улучшат экосистему для удовлетворения этих потребностей”, — сказал Петерсен. “При более чем 85 компаниях-членах, которые продвигают эту расширяющуюся дорожную карту спецификаций, UALink отвечает на реальную рыночную потребность в масштабируемых решениях, которые могут идти в ногу с экспоненциальным ростом ИИ”. Возможно, некоторые из компаний, которые в настоящее время работают над аппаратным обеспечением с поддержкой UALink, не хотят привязываться к определенной дорожной карте до тех пор, пока все функции не будут поддержаны спецификацией. Однако важность INC может быть не столь значительной. “INC не повсеместно развертывается во всех приложениях, и мы также видим, что многие современные решения, которые могли бы использовать INC, развертываются без включенного INC”, — сказал Ахмад Данеш, ассоциированный вице-президент по управлению продуктами в Astera Labs, в интервью Tom’s Hardware. “Правление консорциума UALink учитывало это при определении UALink 1.0, и ранние последователи придают более высокий приоритет повышению производительности и снижению общей стоимости владения за счет специально разработанного протокола с семантикой памяти UALink. Ожидается, что отсутствие спецификации INC в UALink 1.0 не повлияет на графики запуска оборудования UALink, но консорциум продолжает совершенствовать спецификацию и активно работает над INC, чтобы предоставить еще большую ценность с помощью UALink”. UALink — это многообещающий открытый стандарт межсоединений, предназначенный для обеспечения высокоскоростной связи с низкой задержкой между AI-ускорителями, получивший поддержку более 90 компаний. Однако, хотя AMD и Marvell подтвердили разработку процессоров на базе UALink, а Synopsys уже предлагает IP контроллера и PHY, полномасштабное развертывание займет время из-за циклов интеграции и текущего отсутствия коммутаторов, совместимых с UALink. Хотя будущие усовершенствования, такие как In-Network Collectives (INC) и спецификация PHY 128G, не требуются для создания совместимого оборудования, их отсутствие может задержать более широкие обязательства, поскольку некоторые компании могут дождаться финализации этих функций, прежде чем фиксировать разработку своего UALink-оборудования и выпускать его на рынок. Тем не менее, Astera Labs ожидает, что первые продукты с поддержкой UALink появятся на рынке в этом году.

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: