Фреймворк с открытым исходным кодом Orbit позволяет обучать триллионнопараметрические модели на одном узле

Rl Orbit Deepseek Gpu Moe адаптеры pandaily.com

Sphere AI Lab открыла исходный код Orbit — фреймворка постобучения RL, который позволяет моделям с триллионом параметров, таким как DeepSeek-V4, проходить тонкую настройку на одном узле 8xB200. — pandaily.com

Sphere AI Lab официально выпустила в открытый доступ Orbit — фреймворк для постобучения с подкреплением (RL), который позволяет моделям с триллионом параметров, таким как DeepSeek-V4 и Kimi-K2.6, проходить тонкую настройку RL на одном узле с 8 ускорителями B200, что ранее требовало распределенных систем на нескольких узлах.

Основное новшество Orbit заключается в его системном дизайне, ориентированном на адаптеры (adapter-first). Замораживая базовую модель низкой точности и обучая только легковесный адаптер, Orbit сокращает требования к памяти GPU для 1T-параметрических моделей с уровня, требующего нескольких узлов, до бюджета в 1536 ГБ HBM одного узла. Этот подход устраняет рассогласование точности между обучением и развертыванием, которое долгое время доставляло проблемы системам постобучения RL.

В ходе тестов Orbit продемонстрировал стабильное улучшение вознаграждения, рост точности оценки (eval accuracy) и увеличение метрик pass@k при RL-обучении Kimi-K2.6 и DeepSeek-V4 Flash на одиночных узлах. Фреймворк также завершил предварительную валидацию на DeepSeek-V4 Pro с 1,6 трлн параметров, доказав свою масштабируемость.

Ключевые технические особенности включают активную поблочную деквантизацию для MoE-моделей (active-expert-chunked dequantization), нативную асинхронность адаптеров с двойной буферизацией развертывания (double-buffered rollout) для снижения накладных расходов на “пузыри” (bubble overhead), а также CUDA graph decoding с интеграцией DeepGEMM. Фреймворк требует только синхронизации на уровне адаптеров (мегабайты), а не полной синхронизации весов (гигабайты) между движками обучения и инференса.

Релиз с открытым исходным кодом доступен на GitHub (Sphere-AI-Lab/orbit), документация — на spherelab.ai/orbit. Это знаменует собой важный шаг к демократизации крупномасштабного постобучения RL, позволяя небольшим командам проводить тонкую настройку передовых моделей с ограниченным оборудованием.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: