Zhipu AI выпускает и открывает исходный код своей серии мультимодальных моделей GLM-4.6V, снижая цены на API на 50%

Pandaily

09.12.2025

искусственный интеллект,большие языковые модели,мультимодальность,glm-4.6v,zhipu ai,toolcalling

Zhipu AI представила GLM-4.6V – новую серию мультимодальных языковых моделей, превосходящих предшественников в логическом анализе и понимании контекста. Отличается эффективным toolcalling и оптимизацией для различных устройств. Идеально для сложных задач и генерации контента.

8 декабря компания Zhipu AI объявила о выпуске и открытии исходного кода новой серии мультимодальных больших языковых моделей GLM-4.6V. В серию входят:

GLM-4.6V (106B-A12B): Базовая модель, предназначенная для облачных сред и высокопроизводительных кластеров;
GLM-4.6V-Flash (9B): Легковесная версия, оптимизированная для развертывания на устройствах и использования с низкой задержкой.

Zhipu AI подчеркивает, что традиционный механизм вызова инструментов (toolcalling) сильно зависит от текстового ввода, что делает его неэффективным и приводит к потере информации при работе с изображениями, видео или сложными документами. GLM-4.6V, разработанная на основе философии «изображения как параметры, результаты как контекст», представляет нативный мультимодальный toolcalling для устранения этих узких мест:

Мультимодальный ввод: Изображения, скриншоты и страницы документов могут быть напрямую переданы в инструменты без предварительного преобразования в текстовые описания, что снижает потерю информации и объем инженерных работ.
Мультимодальный вывод: Модель может визуально интерпретировать возвращаемые инструментами результаты — такие как графики, снимок отрисованной веб-страницы или полученные изображения продуктов — и интегрировать их в дальнейшее рассуждение.

Это создает полноценный конвейер от восприятия к пониманию и выполнению, позволяя GLM-4.6V лучше справляться со сложными задачами, такими как генерация контента в смешанном формате, распознавание продуктов и рекомендации по соотношению цены и качества, а также продвинутые рабочие процессы агентов.

По результатам более чем 30 основных мультимодальных тестов — включая MMBench, MathVista и OCRBench — GLM-4.6V демонстрирует значительные улучшения по сравнению со своим предшественником. При сопоставимых масштабах параметров модель достигает передовых результатов в мультимодальном взаимодействии, логическом рассуждении и понимании длинного контекста.

Компактная версия GLM-4.6V-Flash (9B) превосходит Qwen3-VL-8B, в то время как GLM-4.6V с 106 миллиардами параметров и активацией 12B обеспечивает производительность, сопоставимую с Qwen3-VL-235B, несмотря на то, что у последнего почти вдвое больше параметров.

Автор – Pandaily

Оригинал статьи

В тренде:

glm-4.6v, toolcalling, zhipu ai, большие языковые модели, Искусственный интеллект, мультимодальность

ИИ-альтернатива «CapCut» Pollo AI привлекла почти $14 млн в seed-раунде, достигла 6 млн MAU и вышла на прибыль
09.12.2025
Pollo AI привлекла $14 млн инвестиций для развития платформы генерации видео на базе ИИ. Компания стремится стать лидером в сфере AI-видеоредактирования, предлагая комплексный инструмент для создания и обработки видеоконтента.
Claude Code появится в Slack, и это гораздо значительнее, чем кажется
08.12.2025
Anthropic представила Claude Code в Slack, позволяя разработчикам делегировать задачи по кодированию прямо из чатов. Это часть тенденции к совместной работе с использованием AI, которая может изменить процессы разработки программного обеспечения.
Кешью исследует рынок исследований объемом 90 миллиардов долларов с помощью ИИ.
09.12.2025
Cashew Research использует ИИ для автоматизации процесса маркетинговых исследований, сохраняя при этом сбор реальных данных от людей. Стартап из Калгари предлагает доступные решения для брендов любого размера, объединяя мощь ИИ с человеческой экспертизой и свежими данными.
В Android 16 появятся сводки уведомлений на базе ИИ, новые возможности персонализации и многое другое
03.12.2025
Android 16 на Pixel приносит ИИ‑сводки уведомлений, автоматическое заглушение низкоприоритетных сообщений, новые формы иконок, темные темы для светлых приложений и родительский контроль. Google добавляет функции «Причина звонка», эмоциональные субтитры, улучшенный Circle‑to‑Search, голосовой доступ без касаний и Fast Pair для слуховых аппаратов,…

Zhipu AI выпускает и открывает исходный код своей серии мультимодальных моделей GLM-4.6V, снижая цены на API на 50%

В тренде:

ИИ-альтернатива «CapCut» Pollo AI привлекла почти $14 млн в seed-раунде, достигла 6 млн MAU и вышла на прибыль

Claude Code появится в Slack, и это гораздо значительнее, чем кажется

Кешью исследует рынок исследований объемом 90 миллиардов долларов с помощью ИИ.

В Android 16 появятся сводки уведомлений на базе ИИ, новые возможности персонализации и многое другое