DeepSeek DSpark ускоряет генерацию на 85% в первом исследовании после привлечения инвестиций

Deepseek Dspark декодирование инференс оптимизация pandaily.com

DeepSeek выпускает фреймворк спекулятивного декодирования DSpark, ускоряющий генерацию на 85% в первой статье Ляна Вэньфэна после раунда финансирования компании на $7 млрд.

Компания DeepSeek представила свое первое крупное достижение с открытым исходным кодом после завершения раунда финансирования на 7 миллиардов долларов — спекулятивный фреймворк декодирования под названием DSpark, который ускоряет генерацию на 60–85% без изменения базовой архитектуры модели.

Фреймворк, подробно описанный в статье, соавтором которой выступил основатель DeepSeek Лян Вэньфэн и исследователи из Пекинского университета, озаглавлен «DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation». Наряду с этой статьей DeepSeek опубликовала модели DeepSeek-V4-Pro-DSpark и DeepSeek-V4-Flash-DSpark, а также полный инструментарий для обучения DeepSpec на GitHub.

Спекулятивное декодирование — это техника ускорения инференса без потерь, которая работает путем разделения генерации черновика и верификации целевой моделью. Легковесная модель черновика быстро генерирует черновую последовательность, а целевая модель проверяет ее пакетом, обменивая чистую вычислительную мощность на снижение задержки. Однако существующие параллельные генераторы черновиков страдают от быстрого снижения частоты принятия токенов из-за отсутствия зависимостей между токенами.

DSpark решает эту проблему благодаря двум ключевым нововведениям. Во-первых, полуавторегрессивная архитектура сочетает параллельную базовую сеть с легковесными последовательными модулями, выстраивая внутриблочные зависимости токенов для смягчения спада частоты принятия в конце последовательности. Во-вторых, механизм верификации с планированием по уровню уверенности динамически настраивает длину верификации для каждого запроса на основе оценочной вероятности принятия префикса и характеристик пропускной способности движка.

В многодоменных офлайн-бенчмарках DSpark значительно улучшает эффективную длину принятой последовательности по сравнению с передовыми авторегрессивными и параллельными генераторами черновиков. При развертывании в производственной системе DeepSeek, обрабатывающей реальный пользовательский трафик, он снижает потери вычислительных ресурсов из-за недействительных проверок, обеспечивая при этом ускорение генерации для одного пользователя на 60–85% по сравнению со зрелой производственной базовой линией (MTP-1) при сохранении общей пропускной способности.

Сопутствующая библиотека с открытым исходным кодом DeepSpec предоставляет полнофункциональный набор инструментов для обучения и оценки моделей черновиков для спекулятивного декодирования, включая инструменты подготовки данных, реализации моделей черновиков, код обучения и скрипты оценки под лицензией MIT. Она поддерживает три модели черновиков: DSpark, DFlash и Eagle3, и совместима с такими моделями, как Qwen3 и Gemma.

Этот релиз сигнализирует о стратегическом повороте DeepSeek в сторону оптимизации инференса после крупного раунда финансирования, позиционируя компанию для конкуренции не только по качеству моделей, но и по эффективности их реального развертывания.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: