Китайский стартап, занимающийся разработкой больших языковых моделей, StepFun полностью открыл исходный код Step 3.5 Flash, выпустив не только саму модель, но и ее базовые (предварительно обученные) веса, веса промежуточного обучения (Midtrain) и сопутствующий фреймворк для обучения Steptron — тем самым укрепив свою приверженность открытой инфраструктуре ИИ для разработки агентов.
Step 3.5 Flash использует разреженную архитектуру MoE (Mixture-of-Experts) с общим числом параметров 196 миллиардов, при этом во время инференса активируется лишь около 11 миллиардов параметров. Сообщается, что при выполнении задач по кодированию в рамках одного запроса скорость инференса может достигать 350 токенов в секунду (TPS). Модель специально разработана для сценариев с агентами, демонстрируя высокую производительность в сложном логическом выводе и цепочках задач с долгосрочным горизонтом. По данным компании, глубина ее логического вывода сопоставима с некоторыми закрытыми моделями высшего уровня.
Модель быстро завоевала популярность в сообществе открытого исходного кода. Количество загрузок на Hugging Face превысило 300 000, и она поднялась на первое место в рейтинге OpenRouter Trending榜. В известном проекте по открытым бенчмаркам OpenClaw (получившем среди китайских разработчиков прозвище «Маленький Лобстер») Step 3.5 Flash заняла две верхние строчки.
Выпустив полные веса обучения и поддержку фреймворка, StepFun позиционирует Step 3.5 Flash как фундаментальную открытую базовую модель для ИИ-агентов нового поколения.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




