21 января появились новые сведения, свидетельствующие о том, что компания DeepSeek может представить свою флагманскую модель искусственного интеллекта следующего поколения, DeepSeek V4, в середине февраля, во время празднования Лунного Нового года. Ожидается, что новая модель продемонстрирует значительно улучшенные возможности в области программирования.
20 января, в первую годовщину выпуска DeepSeek-R1, разработчики заметили, что DeepSeek обновила большой массив кода FlashMLA на GitHub. В 114 файлах 28 раз встречался неизвестный идентификатор большой модели с пометкой «MODEL1».
Этот идентификатор упоминается наряду с существующей моделью «V32» (DeepSeek-V3.2) или явно отличается от нее. Основываясь на контекстуальном анализе кода, «MODEL1», по общему мнению, представляет собой новую модель, построенную на иной архитектуре, а не незначительную итерацию текущего поколения.
Разработчики, анализировавшие код, обнаружили заметные технические различия между «MODEL1» и «V32», особенно в компоновке кэша ключ-значение (KV), обработке разреженности (sparsity) и поддержке декодирования формата данных FP8. Эти изменения позволяют предположить, что новая архитектура, возможно, специально разработана для повышения эффективности использования памяти и вычислительной производительности.
Ранее исследовательская группа DeepSeek опубликовала две технические работы, в которых был представлен новый метод обучения под названием «Модифицированные иерархические соединения» (mHC) и вдохновленный биологией модуль памяти ИИ, известный как «Энграмма» (Engram). Эти публикации подогрели слухи о том, что будущая модель DeepSeek может интегрировать эти новейшие достижения в области исследований. Подробности ожидаются в ближайшее время.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




