Новости: мультимодальность
Meituan представила мультимодальную модель LongCat-Next с поддержкой текста, изображений и аудио
Meituan представила LongCat-Next — мультимодальную модель с 68,5 млрд параметров, способную обрабатывать текст, изображения и аудио в единой среде. Система демонстрирует конкурентоспособную производительность в задачах OCR, генерации изображений и речи, оставаясь на стадии исследований. — pandaily.com

Следом за Seedance 2.0, еще одна китайская модель видео с полным модальным входом в топ-2 искусственного анализа
SkyReels-V4 от Kunlun Tech заняла второе место в мировом рейтинге T2V по версии Artificial Analysis, став первой в мире видео-фундаментальной моделью с поддержкой мультимодального ввода, совместной аудио-видео генерации и унифицированного редактирования. — pandaily.com

DeepSeek представит на следующей неделе мультимодальную модель V4 с поддержкой генерации изображений, видео и текста
На следующей неделе DeepSeek выпустит свою мультимодальную большую языковую модель V4 с нативной поддержкой генерации изображений, видео и текста, отдав приоритет раннему доступу отечественным партнерам по чипам Huawei и Cambricon перед NVIDIA и AMD. — pandaily.com

Новый инструмент Perplexity задействует команды ИИ-агентов
Вирусный инструмент OpenClaw AI породил десятки имитаторов. Perplexity представляет Computer — нового персонального ИИ-агента, способного управлять командами субагентов. Этот «цифровой работник» использует мультимодальную оркестрацию для выполнения задач. — pcworld.com

Ant Group представила в открытом доступе мультимодальную модель Ming-Flash-Omni 2.0
Ant Group выпустила Ming-Flash-Omni 2.0 — унифицированную мультимодальную модель с открытым кодом. Она генерирует речь, музыку и звуковые эффекты в одной дорожке с точным контролем через естественный язык. — pandaily.com

Kimi открывает исходный код модели K2.5, добавляя продвинутые возможности компьютерного зрения, написания кода и работы с кластерами агентов.
Moonshot AI открыла доступ к своей новой модели Kimi K2.5, предлагая нативное мультимодальное рассуждение, продвинутую поддержку кодирования и масштабируемые возможности кластера Агентов для разработчиков и бизнеса.

Самое просматриваемое:
- Bitcoin Depot оштрафован на $18,5 млн – сталкивается…
- WatchGuard бьёт тревогу: критическая уязвимость…
- Как настроить ComfyUI для генерации изображений ИИ…
- ECARX берет управление бизнесом Flyme OS в свои руки…
- США прикрыли платформу для хранения паролей, которой…
- Результаты еженедельного опроса: Samsung Galaxy Z…
- Тим Суини из Epic: «нечестность» и «грубое…
- Исследователи из MIT возродили 40-летнюю концепцию…
- Новейший датчик присутствия от Aqara определяет,…
- Представитель сервисного центра Google сообщил…



