Компания OpenAI объявила о планах развернуть ускорители от конкурента Nvidia — Cerebras, чьи чипы размером с обеденную тарелку, в объеме 750 мегаватт до 2028 года, чтобы укрепить свои сервисы инференса (вывода).
Сделка, в рамках которой Cerebras берет на себя риски по строительству и лизингу дата-центров для обслуживания OpenAI, оценивается источниками, знакомыми с ситуацией, в сумму свыше 10 миллиардов долларов, сообщает El Reg.
Интегрируя архитектуру вычислений на уровне полупроводниковой пластины от Cerebras в свой конвейер инференса, OpenAI сможет использовать массивную емкость SRAM этих чипов для ускорения вывода. Каждый из ускорителей WSE-3 от этого стартапа имеет площадь 46 225 мм² и оснащен 44 ГБ SRAM.
По сравнению с HBM, используемой в современных GPU, SRAM работает на порядки быстрее. В то время как один GPU Nvidia Rubin может обеспечить пропускную способность памяти около 22 ТБ/с, чипы Cerebras достигают почти в 1000 раз больше — 21 петабайт в секунду.
Вся эта пропускная способность трансформируется в чрезвычайно высокую производительность инференса. При работе с такими моделями, как gpt-oss 120B от OpenAI, чипы Cerebras, по сообщениям, могут обеспечить производительность для одного пользователя на уровне 3098 токенов в секунду, по сравнению с 885 токенами в секунду у конкурента Together AI, использующего GPU Nvidia.
В эпоху моделей рассуждений и ИИ-агентов более быстрый инференс означает, что модели могут «думать» дольше, не жертвуя интерактивностью.
«Интеграция Cerebras в наш набор вычислительных решений направлена на то, чтобы сделать наш ИИ гораздо более отзывчивым. Когда вы задаете сложный вопрос, генерируете код, создаете изображение или запускаете ИИ-агента, за кулисами происходит цикл: вы отправляете запрос, модель обдумывает его и присылает ответ», — пояснили в OpenAI в недавнем посте в блоге. «Когда ИИ отвечает в режиме реального времени, пользователи могут делать с ним больше, проводить больше времени и выполнять более ценные рабочие нагрузки».
Однако архитектура Cerebras имеет свои ограничения. SRAM не отличается высокой энергоэффективностью в плане занимаемого пространства, поэтому, несмотря на впечатляющие размеры чипов, они вмещают примерно столько же памяти, сколько шестилетняя карта Nvidia A100 PCIe.
Из-за этого более крупные модели необходимо распараллеливать на нескольких чипах, каждый из которых потребляет колоссальные 23 кВт мощности. В зависимости от используемой точности, количество необходимых чипов может быть значительным. При 16-битной точности, которую Cerebras исторически предпочитала для более качественных результатов, каждый миллиард параметров требовал 2 ГБ емкости SRAM. В результате даже умеренные модели, такие как Llama 3 70B, нуждались как минимум в четырех ускорителях CS-3 для работы.
Прошло почти два года с тех пор, как Cerebras представила новый ускоритель на уровне пластины, и с тех пор приоритеты компании сместились с обучения на инференс. Мы предполагаем, что следующий чип компании может выделить большую площадь под SRAM и добавить поддержку современных блочных форматов данных с плавающей запятой, таких как MXFP4, что значительно увеличит размер моделей, которые можно обслуживать на одном кристалле.
Тем не менее, внедрение маршрутизатора моделей с запуском GPT-5 от OpenAI прошлым летом должно помочь смягчить ограничения по памяти Cerebras. Этот подход гарантирует, что подавляющее большинство запросов, обрабатываемых ChatGPT, выполняется с помощью меньших, оптимизированных по стоимости моделей. Только самые сложные запросы обрабатываются на самых больших и ресурсоемких моделях OpenAI.
Также возможно, что OpenAI решит выполнять часть своего конвейера инференса на оборудовании Cerebras. За последний год концепция дезагрегированного инференса набрала популярность.
Теоретически OpenAI может выполнять ресурсоемкую обработку промптов на GPU от AMD или Nvidia, а генерацию токенов выгружать на ускорители Cerebras, насыщенные SRAM, для этапа генерации токенов, ограниченного пропускной способностью. Будет ли это реальной опцией, зависит от Cerebras.
«Это соглашение об облачном сервисе. Мы строим дата-центры с нашим оборудованием для OpenAI, чтобы обеспечивать работу их моделей с самым быстрым инференсом», — сообщил представитель компании El Reg, когда его спросили о возможности использования их CS-3 в дезагрегированной вычислительной архитектуре.
Это не означает, что такого не произойдет, но именно Cerebras должна будет развернуть системы GPU, необходимые для поддержки такой конфигурации в своих дата-центрах наряду с их пластинными ускорителями. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Tobias Mann




