Sphere AI Lab официально выпустила в открытый доступ Orbit — фреймворк для постобучения с подкреплением (RL), который позволяет моделям с триллионом параметров, таким как DeepSeek-V4 и Kimi-K2.6, проходить тонкую настройку RL на одном узле с 8 ускорителями B200, что ранее требовало распределенных систем на нескольких узлах.
Основное новшество Orbit заключается в его системном дизайне, ориентированном на адаптеры (adapter-first). Замораживая базовую модель низкой точности и обучая только легковесный адаптер, Orbit сокращает требования к памяти GPU для 1T-параметрических моделей с уровня, требующего нескольких узлов, до бюджета в 1536 ГБ HBM одного узла. Этот подход устраняет рассогласование точности между обучением и развертыванием, которое долгое время доставляло проблемы системам постобучения RL.
В ходе тестов Orbit продемонстрировал стабильное улучшение вознаграждения, рост точности оценки (eval accuracy) и увеличение метрик pass@k при RL-обучении Kimi-K2.6 и DeepSeek-V4 Flash на одиночных узлах. Фреймворк также завершил предварительную валидацию на DeepSeek-V4 Pro с 1,6 трлн параметров, доказав свою масштабируемость.
Ключевые технические особенности включают активную поблочную деквантизацию для MoE-моделей (active-expert-chunked dequantization), нативную асинхронность адаптеров с двойной буферизацией развертывания (double-buffered rollout) для снижения накладных расходов на “пузыри” (bubble overhead), а также CUDA graph decoding с интеграцией DeepGEMM. Фреймворк требует только синхронизации на уровне адаптеров (мегабайты), а не полной синхронизации весов (гигабайты) между движками обучения и инференса.
Релиз с открытым исходным кодом доступен на GitHub (Sphere-AI-Lab/orbit), документация — на spherelab.ai/orbit. Это знаменует собой важный шаг к демократизации крупномасштабного постобучения RL, позволяя небольшим командам проводить тонкую настройку передовых моделей с ограниченным оборудованием.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




