Zhipu AI выпускает и открывает исходный код своей серии мультимодальных моделей GLM-4.6V, снижая цены на API на 50%

искусственный интеллект,большие языковые модели,мультимодальность,glm-4.6v,zhipu ai,toolcalling

Zhipu AI представила GLM-4.6V – новую серию мультимодальных языковых моделей, превосходящих предшественников в логическом анализе и понимании контекста. Отличается эффективным toolcalling и оптимизацией для различных устройств. Идеально для сложных задач и генерации контента.

8 декабря компания Zhipu AI объявила о выпуске и открытии исходного кода новой серии мультимодальных больших языковых моделей GLM-4.6V. В серию входят:

  • GLM-4.6V (106B-A12B): Базовая модель, предназначенная для облачных сред и высокопроизводительных кластеров;
  • GLM-4.6V-Flash (9B): Легковесная версия, оптимизированная для развертывания на устройствах и использования с низкой задержкой.

Zhipu AI подчеркивает, что традиционный механизм вызова инструментов (toolcalling) сильно зависит от текстового ввода, что делает его неэффективным и приводит к потере информации при работе с изображениями, видео или сложными документами. GLM-4.6V, разработанная на основе философии «изображения как параметры, результаты как контекст», представляет нативный мультимодальный toolcalling для устранения этих узких мест:

  • Мультимодальный ввод: Изображения, скриншоты и страницы документов могут быть напрямую переданы в инструменты без предварительного преобразования в текстовые описания, что снижает потерю информации и объем инженерных работ.

  • Мультимодальный вывод: Модель может визуально интерпретировать возвращаемые инструментами результаты — такие как графики, снимок отрисованной веб-страницы или полученные изображения продуктов — и интегрировать их в дальнейшее рассуждение.

Это создает полноценный конвейер от восприятия к пониманию и выполнению, позволяя GLM-4.6V лучше справляться со сложными задачами, такими как генерация контента в смешанном формате, распознавание продуктов и рекомендации по соотношению цены и качества, а также продвинутые рабочие процессы агентов.

По результатам более чем 30 основных мультимодальных тестов — включая MMBench, MathVista и OCRBench — GLM-4.6V демонстрирует значительные улучшения по сравнению со своим предшественником. При сопоставимых масштабах параметров модель достигает передовых результатов в мультимодальном взаимодействии, логическом рассуждении и понимании длинного контекста.

Компактная версия GLM-4.6V-Flash (9B) превосходит Qwen3-VL-8B, в то время как GLM-4.6V с 106 миллиардами параметров и активацией 12B обеспечивает производительность, сопоставимую с Qwen3-VL-235B, несмотря на то, что у последнего почти вдвое больше параметров.