Новости: мультимодальность
CVPR 2026 бьет рекорды: доля «Multimodal AI» выросла вдвое, а 4089 научных работ меняют вектор развития индустрии
Конференция CVPR 2026 открылась в Денвере с рекордными 16 092 заявками и 4 089 принятыми работами — скачок на 42% — поскольку исследования в области зрения, языка и мультимодального ИИ удвоили свою долю, что стало крупнейшим сдвигом в недавней истории конференции. Среди номинантов на награды работы от NVIDIA, CMU и UVA охватывают игровых агентов. — techtimes.com

Новая модель Gemma 4 12B от Google создана для работы на любом ноутбуке с 16 ГБ оперативной памяти
Новая модель Google Gemma 4 12B использует новую схему кодирования и предсказания токенов, чтобы превзойти ожидания, будучи достаточно эффективной для запуска на большинстве потребительских ноутбуков. — arstechnica.com

Stepfun открыла исходный код Step 3.7 Flash: оптимизированной LLM для эры агентов
Stepfun открывает исходный код Step 3.7 Flash — разреженной LLM на 196B параметров с архитектурой MoE, оптимизированной для рабочих процессов агентов, со скоростью 400 токенов/с и нативным вызовом инструментов. — pandaily.com

Google Gemini Omni Flash: будущее разговорного ИИ с голосовым редактированием видео
Google Gemini Omni Flash представляет голосовое управление редактированием видео на базе разговорного ИИ, мультимодальных инструментов и креативных рабочих процессов в реальном времени для современного создания контента. — techtimes.com

ByteDance представила Lance — легковесную «native unified multimodal» AI-модель
ByteDance выпустила Lance — модель ИИ с открытым исходным кодом, нативную унифицированную мультимодальную модель с всего 3 миллиардами активированных параметров, разработанную для обработки задач понимания и генерации изображений и видео в единой системе. — pandaily.com

Gemini Omni от Google превращает изображения, аудио и текст в видео — и это только начало
Google Gemini Omni — новая мультимодальная модель, которая анализирует текст, изображения, аудио и видео для генерации и редактирования роликов посредством простого диалога — начиная с Omni Flash. — techcrunch.com

Визуальные карты состояний в навыках ИИ-агентов более чем вдвое повышают успешность работы компактных моделей в реальных задачах на рабочем столе
Надежная автоматизация рабочего стола требовала больших и дорогих моделей. Новая статья утверждает, что дело не в размере модели, а в формате упаковки знаний: MMSkills добавляет визуальные доказательства к текстовым инструкциям, что резко повышает успех даже небольших моделей. — techtimes.com

Meta* запускает «Muse Spark AI»: нейросеть с навыками рассуждения и встроенной мультимодальностью
Meta* обновила свою ИИ-экосистему новой моделью Muse Spark. Узнайте, как ее возможности рассуждения и предстоящий режим Contemplating mode призваны переопределить передовые рубежи ИИ. Читать далее… — neowin.net

Самое просматриваемое:
- Bitcoin Depot оштрафован на $18,5 млн – сталкивается…
- WatchGuard бьёт тревогу: критическая уязвимость…
- Как настроить ComfyUI для генерации изображений ИИ…
- ECARX берет управление бизнесом Flyme OS в свои руки…
- США прикрыли платформу для хранения паролей, которой…
- Результаты еженедельного опроса: Samsung Galaxy Z…
- Тим Суини из Epic: «нечестность» и «грубое…
- Исследователи из MIT возродили 40-летнюю концепцию…
- Новейший датчик присутствия от Aqara определяет,…
- Представитель сервисного центра Google сообщил…

