Помните гигантский сервер Blade размера стойки от Oxide Computer, который компания представила пару лет назад? Что ж, стартап продолжает развиваться – на этой неделе он привлек 200 миллионов долларов в рамках раунда финансирования Серии C, готовясь вывести на рынок новое оборудование с обновленной вычислительной мощностью, памятью и сетевыми возможностями.
Основанная в 2019 году группой бывших инженеров Joyent и Sun Microsystems, компания поставила себе цель сделать стойку, а не сервер, новой единицей вычислений для дата-центров.
В результате была создана система высотой 7,8 фута (около 2,4 метра) и весом 2518 фунтов (более 1140 кг), рассчитанная на общую потребляемую мощность 15 кВт и работающая на полностью кастомном стеке программного обеспечения с открытым исходным кодом.
Внутри этого гиганта размещены 32 вычислительных модуля, вдохновленных гипермасштабируемыми решениями. Каждый из них оснащен 64 ядрами EPYC, до 1 ТБ памяти и 32 ТБ хранилища NVMe. Все это связано через бэкплейн, который не только обеспечивает питание, но и обеспечивает пропускную способность коммутации до 12,8 Тбит/с.
Однако эта система была запущена два года назад, и, хотя она была впечатляющей для своего времени, многие основные компоненты стойки Oxide уже устаревают.
Процессоры EPYC поколения Milan от AMD, которые использовались в оригинальной стойке Oxide, были выпущены в марте 2021 года.
Таким образом, система стоек нуждается в обновлении, и, по словам генерального директора Стива Таска, оно не заставит себя ждать.
Стойка Oxide получает обновление Zen 5
Предстоящее оборудование будет включать новое поколение вычислительных модулей на базе процессоров AMD Turin EPYC, которые были выпущены чуть более года назад. Они могут похвастаться количеством ядер до 192 и поддержкой более быстрой памяти DDR5 6400 МТ/с — это довольно значительное обновление по сравнению со сравнительно медленной памятью DDR4 3200 МТ/с, которая поставлялась в оригинальной стойке Oxide в 2023 году.
«Turin возвращает нас к оптимальному сочетанию большого количества ядер и минимального энергопотребления», — говорит Таск изданию El Reg.
Oxide еще не сообщила, какие именно SKU она выбрала, но независимо от количества ядер, архитектурные улучшения от Zen 3 до Zen 5 от AMD будут существенными, с увеличением количества инструкций за такт более чем на 30 процентов.
Само по себе это было бы значительным улучшением, но это не учитывает тот факт, что Turin работает на гораздо более высоких частотах, чем Milan. 64-ядерный Epyc 7713P на базе Milan, установленный в вычислительном модуле Oxide, достигал максимальной частоты 3,67 ГГц. Напротив, при том же количестве ядер Turin способен достигать 5 ГГц, хотя и с несколько большим энергопотреблением и только на нескольких ядрах одновременно.
Turin также впервые принесет поддержку AVX-512 на вычислительную платформу Oxide. Эти мощные векторы стали все более полезными для агентных систем ИИ, но полностью отсутствовали в поколении Milan и лишь частично поддерживались в линейке AMD Zen 4 EPYC Genoa.
Технический директор Oxide Брайан Калтрилл, которого вы можете помнить по работе в Sun Microsystems, сообщил нам, что Oxide в конечном итоге решила пропустить Genoa, поскольку она была не столь привлекательна с точки зрения плотности вычислений по сравнению с Turin, который, как мы отметим, был всего в году от запуска, когда первая стойка компании дебютировала.
Как мы уже упоминали, переход на Turin также ознаменует внедрение Oxide поддержки DDR5, при условии, что компания сможет обеспечить достаточные поставки. Если вы не заметили, DDR5 сейчас стоит как золото.
Жизнь после Tofino
Наряду с новыми вычислительными модулями и памятью, Oxide также оценивает новые коммутационные чипы для eventual замены устаревшего оборудования Tofino 2 в системе.
Дело в том, что почти за год до того, как компания представила стойку Oxide миру, Intel тихо прекратила разработку линейки коммутаторов Tofino. Это создало проблему для Oxide, которая уже вложила значительные средства в разработку программного обеспечения для этой платформы.
Но вместо того, чтобы отказаться от платформы, Intel приняла весьма необычное решение — открыть исходный код компилятора P4 для Tofino.
«Честно говоря, это почти нехарактерно для Intel. Когда Intel что-то закрывает, они обычно хотят забыть, что это когда-либо существовало», — сказал Калтрилл. «Именно преданность сотрудников Intel, которые действительно верили в программируемость [платформы], позволила открыть исходный код компилятора P4, и это было для нас крайне важно».
Несмотря на свой возраст, коммутационное оборудование по-прежнему более чем достаточно для обеспечения пропускной способности 200 Гбит/с (2x 100GbE канала) для каждого из 32 вычислительных модулей стойки Oxide.
Таск также уверяет нас, что у компании нет недостатка в оборудовании Tofino, чтобы поддерживать работу существующих стоек. «У нас нет никаких ограничений в том, где мы сможем создавать, развертывать и поддерживать клиентов на этой архитектуре», — сказал он.
Но, в конечном счете, Tofino — это тупиковая платформа, для которой Oxide уже оценивает долгосрочные замены. Одним из таких вариантов является коммутационное оборудование X2 от Xsight Labs. Как и Tofino, оно обладает высокой программируемостью и при этом потребляет менее 200 Вт мощности под нагрузкой.
Однако, как говорит Таск, компания также изучает другие варианты, хотя, учитывая предпочтение Oxide к открытому оборудованию, трудно представить, что претендентов будет много.
Больше открытого оборудования, совместное проектирование ПО
Одна из отличительных черт Oxide от других поставщиков оборудования заключается в том, что компания не просто перерабатывает референсные дизайны и считает дело сделанным. Компания применила системный подход к созданию своего оборудования с нуля.
Чтобы понять, насколько Oxide необычна, стоит отметить, что компания не просто взяла готовый ASPEED и установила его на материнскую плату для удаленного управления, как это делают почти все остальные производители плат. Вместо этого компания самостоятельно разработала собственный сервисный процессор.
И хотя изначально компания планировала адаптировать референсные платы для своих вычислительных модулей, в итоге она наняла команду инженеров-электронщиков для разработки собственных, опять же с нуля.
«Мы как никогда уверены, что для разработки надежных, масштабируемых систем нам нужны наши кремниевые компоненты, которые четко документированы на самых низких уровнях интерфейса», — сказал Калтрилл.
Сказав это, Oxide пришлось где-то остановиться, и в стойке Oxide все еще есть проприетарные блоки. «Мы не делали свой собственный SSD», — сказал Калтрилл.
Но хотя для стартапа может быть нецелесообразно разрабатывать собственные контроллеры для всего, Калтрилл ожидает, что в стойке Oxide будет меньше таких «проприетарных блоков», а не больше, по мере ее развития.
Одной из движущих сил решения Oxide создавать собственное оборудование, а не покупать его, является прозрачность.
«Проблема, с которой вы часто сталкиваетесь с этими проприетарными слоями, заключается в том, что мы не знаем, что происходит», — сказал Калтрилл. «Для клиентов это чрезвычайно, чрезвычайно расстраивает, когда возникают проблемы с инфраструктурой».
При использовании проприетарного оборудования возможности Oxide ограничены, если поставщик не может решить проблему. Отдавая приоритет открытым, хорошо документированным платформам и при необходимости создавая собственное оборудование, Oxide надеется обойти эту проблему.
Наконец-то GPU в меню?
До сих пор Oxide в основном была сосредоточена на удовлетворении спроса на универсальные вычисления, а не на погоне за прибылью от ИИ.
«GPU, безусловно, на радаре. Они всегда были на радаре с самого начала», — сказал Калтрилл. «Я думаю, что нас сильно удивила роль, которую универсальные процессоры играют в этих рабочих нагрузках ИИ».
Хотя GPU и ускорители ИИ необходимы для обучения и запуска моделей, многие агентные функции, которые сейчас привлекают внимание, работают на процессорах.
«Когда вы используете своего любимого чат-бота для поиска в Интернете, и появляется маленькое вращающееся колесико поиска, это не GPU ищет в Интернете».
Калтрилл говорит, что Oxide когда-нибудь предложит GPU, но он утверждает, что у компании еще много работы с процессорами, хранилищами данных и сетями, чтобы занять ее на данный момент. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Tobias Mann





