8 декабря компания Zhipu AI объявила о выпуске и открытии исходного кода новой серии мультимодальных больших языковых моделей GLM-4.6V. В серию входят:
- GLM-4.6V (106B-A12B): Базовая модель, предназначенная для облачных сред и высокопроизводительных кластеров;
- GLM-4.6V-Flash (9B): Легковесная версия, оптимизированная для развертывания на устройствах и использования с низкой задержкой.
Zhipu AI подчеркивает, что традиционный механизм вызова инструментов (toolcalling) сильно зависит от текстового ввода, что делает его неэффективным и приводит к потере информации при работе с изображениями, видео или сложными документами. GLM-4.6V, разработанная на основе философии «изображения как параметры, результаты как контекст», представляет нативный мультимодальный toolcalling для устранения этих узких мест:
-
Мультимодальный ввод: Изображения, скриншоты и страницы документов могут быть напрямую переданы в инструменты без предварительного преобразования в текстовые описания, что снижает потерю информации и объем инженерных работ.
-
Мультимодальный вывод: Модель может визуально интерпретировать возвращаемые инструментами результаты — такие как графики, снимок отрисованной веб-страницы или полученные изображения продуктов — и интегрировать их в дальнейшее рассуждение.
Это создает полноценный конвейер от восприятия к пониманию и выполнению, позволяя GLM-4.6V лучше справляться со сложными задачами, такими как генерация контента в смешанном формате, распознавание продуктов и рекомендации по соотношению цены и качества, а также продвинутые рабочие процессы агентов.
По результатам более чем 30 основных мультимодальных тестов — включая MMBench, MathVista и OCRBench — GLM-4.6V демонстрирует значительные улучшения по сравнению со своим предшественником. При сопоставимых масштабах параметров модель достигает передовых результатов в мультимодальном взаимодействии, логическом рассуждении и понимании длинного контекста.
Компактная версия GLM-4.6V-Flash (9B) превосходит Qwen3-VL-8B, в то время как GLM-4.6V с 106 миллиардами параметров и активацией 12B обеспечивает производительность, сопоставимую с Qwen3-VL-235B, несмотря на то, что у последнего почти вдвое больше параметров.
Автор – Pandaily




