DeepSeek DSpark получил редкое признание от ключевого разработчика PyTorch в детальном техническом разборе

Deepseek Dspark Llm инференс Pytorch оптимизация pandaily.com

Система инференса DSpark от DeepSeek и Пекинского университета получила всесторонний технический анализ от основного мейнтейнера PyTorch Дмитрия Джулгакова, который выделил ее полупараллельное черчение и инженерную проработку для продакшена.

Компания DeepSeek совместно с Пекинским университетом недавно представила DSpark — систему инференса, разработанную для кардинального повышения эффективности обслуживания больших языковых моделей без изменения их функциональных возможностей. Этот релиз быстро стал одним из самых обсуждаемых достижений в области оптимизации инференса LLM, привлекая особое внимание со стороны основного мейнтейнера PyTorch и соучредителя Fireworks AI Дмитрия Джулгакова.

Джулгаков опубликовал подробную ветку из десяти твитов, разбирающих технические инновации DSpark. Его анализ был сосредоточен на том, как DSpark обеспечивает прирост пропускной способности в производственных средах в 1,5–5 раз за счет интеграции множества стратегий спекулятивного декодирования в единую, целостную систему промышленного уровня.

Фундаментальная проблема, которую решает DSpark, проистекает из авторегрессионной природы LLM на основе Трансформеров: каждый токен должен генерироваться последовательно, что приводит к простою GPU на протяжении большей части процесса инференса. Традиционные подходы к батчингу лишь обменивают задержку на пропускную способность, не в силах преодолеть узкое место последовательной генерации.

Основная инновация DSpark заключается в его полупараллельной архитектуре черновиков (drafting). В отличие от чисто последовательных черновиков (EAGLE3), которые дают связные, но медленные предсказания, или чисто параллельных черновиков (DFlash), которые жертвуют точностью на поздних позициях, подход DSpark находит оптимальный баланс. Он использует фреймворк параллельной генерации для скорости, одновременно включая легковесные модули последовательной зависимости — либо марковскую голову (Markov head), либо рекуррентную нейронную сеть (RNN head) — которые поддерживают контекстную связность без значительных вычислительных накладных расходов.

Согласно анализу Джулгакова, эта двухслойная сеть достигает точности традиционных пятислойных параллельных моделей, эффективно решая отраслевую дилемму: «параллельное — неточное, последовательное — медленное». DSpark поддерживает оба типа модулей, что позволяет гибко адаптироваться к различным архитектурам моделей и сценариям развертывания.

При развертывании в производственной среде DeepSeek V4 система DSpark обеспечивает улучшение скорости генерации для одного пользователя на 60–85% и увеличение системной пропускной способности до 4 раз при высокой нагрузке. Система была выпущена с открытым исходным кодом совместно с Пекинским университетом, делая свои инновации доступными для более широкого сообщества ИИ.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

В тренде:


Похожие новости: