Команда разработчиков ИИ WeChat представляет WeDLM: новую структуру диффузионной языковой модели для более быстрого параллельного вывода.

Pandaily

14.01.2026

wedlm,диффузионные модели,llm,tencent ai,ускорение инференса

WeDLM — новая фреймворк языковой модели на основе диффузии от команды Tencent WeChat. Она значительно ускоряет параллельную генерацию текста, сохраняя высокое качество рассуждений, предлагая до 3-кратное ускорение инференса по сравнению с GPT-подобными моделями.

Команда разработчиков искусственного интеллекта из Tencent WeChat представила новую модель языка на основе диффузии под названием WeDLM (WeChat Diffusion Language Model). Эта разработка призвана устранить узкие места в области эффективности параллельного вывода, присущие традиционным большим языковым моделям, таким как серия GPT.

Статья и код: https://github.com/tencent/WeDLM

WeDLM использует технику топологической переупорядоченности, которая объединяет диффузионные модели со стандартными механизмами причинного внимания (causal attention). Это позволяет осуществлять параллельную генерацию текста, сохраняя при этом совместимость с ускорением на базе KV-кэша. Такой подход эффективно решает давнюю проблему диффузионных моделей, когда двунаправленное внимание препятствовало эффективному ускорению вывода.

Благодаря переработке процесса генерации WeDLM демонстрирует значительно более высокую скорость инференса без снижения качества выходных данных. Модель показывает особенно высокую производительность в сложных задачах, требующих рассуждений, таких как решение математических задач и генерация кода.

Команда разработчиков ИИ WeChat представляет WeDLM: новую структуру диффузионной языковой модели для более быстрого параллельного вывода.

Ключевые показатели производительности:

Преимущества в скорости:
На бенчмарках математического анализа, таких как GSM8K, WeDLM-8B обеспечивает ускорение до 3 раз по сравнению с оптимизированными авторегрессионными моделями, например Qwen3-8B. В сценариях с низкой энтропией (например, задачи подсчета) ускорение может превышать 10 раз.

Сохранение качества:
На различных наборах данных, включая ARC, MMLU и HellaSwag, WeDLM соответствует или даже превосходит базовые авторегрессионные модели, доказывая, что повышение эффективности не достигается ценой точности или качества генерации.

Сценарии применения:

WeDLM идеально подходит для сценариев, требующих быстрой и масштабной генерации текста, например, в интеллектуальном обслуживании клиентов, помощи в написании кода и ответах на вопросы в реальном времени. Эффективные возможности вывода помогают снизить вычислительные затраты, обеспечивая при этом более плавный пользовательский опыт.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Pandaily

Оригинал статьи

В тренде:

LLM, tencent ai, wedlm, диффузионные модели, ускорение инференса

Apple будет использовать модели Gemini и облачные сервисы Google для потребительского ИИ.
14.01.2026
После неудач во внутренних разработках Apple обратилась к давнему конкуренту Google, заключив многолетнее соглашение на использование его моделей ИИ и облачных сервисов для функций Apple Intelligence.
Phison демонстрирует десятикратное ускорение логического вывода ИИ на потребительских ПК благодаря аппаратно-программному комплексу, позволяющему использовать в три раза более ёмкие модели ИИ.
14.01.2026
Стек Phison aiDAPTIV+ позволяет запускать большие модели ИИ типа "Смесь экспертов" и агентные рабочие нагрузки на клиентских системах с ограниченной памятью, ускоряя инференс до 10 раз за счет использования флеш-памяти.
По сообщениям, Пекин ограничит закупки H200 только теми, у кого есть “особые обстоятельства”.
14.01.2026
Китайские власти вводят строгие ограничения на закупку мощных GPU Nvidia H200, допуская их только в «особых случаях», предположительно для университетских R&D. Это ставит под удар планы Nvidia на китайском рынке, пока Пекин балансирует между потребностью в передовых чипах для ИИ…
AIsphere представляет PixVerse R1, первую в мире универсальную модель мира реального времени.
14.01.2026
PixVerse R1 от AIsphere — первая в мире модель ИИ для генерации видео в реальном времени. Она превращает видео из статичного вывода в интерактивный, непрерывно развивающийся цифровой мир с минимальной задержкой.

Команда разработчиков ИИ WeChat представляет WeDLM: новую структуру диффузионной языковой модели для более быстрого параллельного вывода.

Ключевые показатели производительности:

Сценарии применения:

В тренде:

Apple будет использовать модели Gemini и облачные сервисы Google для потребительского ИИ.

По сообщениям, Пекин ограничит закупки H200 только теми, у кого есть “особые обстоятельства”.

AIsphere представляет PixVerse R1, первую в мире универсальную модель мира реального времени.