Новости: мультимодальность

CVPR 2026 бьет рекорды: доля «Multimodal AI» выросла вдвое, а 4089 научных работ меняют вектор развития индустрии

Конференция CVPR 2026 открылась в Денвере с рекордными 16 092 заявками и 4 089 принятыми работами — скачок на 42% — поскольку исследования в области зрения, языка и мультимодального ИИ удвоили свою долю, что стало крупнейшим сдвигом в недавней истории конференции. Среди номинантов на награды работы от NVIDIA, CMU и UVA охватывают игровых агентов. — techtimes.com

ИИ

05.06.2026

Chase Fiorini

cvpr 2026, LLM, nitrogen, techtimes.com, ИИ, компьютерное зрение, мультимодальность

Новая модель Gemma 4 12B от Google создана для работы на любом ноутбуке с 16 ГБ оперативной памяти

Новая модель Google Gemma 4 12B использует новую схему кодирования и предсказания токенов, чтобы превзойти ожидания, будучи достаточно эффективной для запуска на большинстве потребительских ноутбуков. — arstechnica.com

Gemma 4 Google ии Llm локальный запуск мультимодальность arstechnica.com

Железо

04.06.2026

Ryan Whitwam

arstechnica.com, gemma 4, Google, LLM, ИИ, локальный запуск, мультимодальность

Stepfun открыла исходный код Step 3.7 Flash: оптимизированной LLM для эры агентов

Stepfun открывает исходный код Step 3.7 Flash — разреженной LLM на 196B параметров с архитектурой MoE, оптимизированной для рабочих процессов агентов, со скоростью 400 токенов/с и нативным вызовом инструментов. — pandaily.com

Stepfun Llm Moe агенты мультимодальность Open Source pandaily.com

ИИ

29.05.2026

Pandaily

LLM, moe, Open-source, pandaily.com, stepfun, агенты, мультимодальность

Google Gemini Omni Flash: будущее разговорного ИИ с голосовым редактированием видео

Google Gemini Omni Flash представляет голосовое управление редактированием видео на базе разговорного ИИ, мультимодальных инструментов и креативных рабочих процессов в реальном времени для современного создания контента. — techtimes.com

ИИ

28.05.2026

Gio Farley

gemini omni flash, techtimes.com, видеоредактирование, голосовое управление, ИИ, мультимодальность

ByteDance открыла исходный код «Lance»: нативную мультимодальную модель, работающую локально с 40 ГБ VRAM

Новая мультимодальная модель Lance от ByteDance с открытым исходным кодом работает на 40 ГБ VRAM и попала в тренды Hugging Face в течение суток после релиза. — pandaily.com

ИИ

25.05.2026

Pandaily

ByteDance, lance, pandaily.com, VRAM, ИИ, мультимодальность, открытый код

ByteDance представила Lance — легковесную «native unified multimodal» AI-модель

ByteDance выпустила Lance — модель ИИ с открытым исходным кодом, нативную унифицированную мультимодальную модель с всего 3 миллиардами активированных параметров, разработанную для обработки задач понимания и генерации изображений и видео в единой системе. — pandaily.com

ИИ

22.05.2026

Pandaily

ByteDance, lance, pandaily.com, ИИ, мультимодальность, открытый код

Gemini Omni от Google превращает изображения, аудио и текст в видео — и это только начало

Google Gemini Omni — новая мультимодальная модель, которая анализирует текст, изображения, аудио и видео для генерации и редактирования роликов посредством простого диалога — начиная с Omni Flash. — techcrunch.com

ИИ

19.05.2026

Rebecca Bellan

gemini omni, Google, techcrunch.com, видео, ИИ, мультимодальность

Визуальные карты состояний в навыках ИИ-агентов более чем вдвое повышают успешность работы компактных моделей в реальных задачах на рабочем столе

Надежная автоматизация рабочего стола требовала больших и дорогих моделей. Новая статья утверждает, что дело не в размере модели, а в формате упаковки знаний: MMSkills добавляет визуальные доказательства к текстовым инструкциям, что резко повышает успех даже небольших моделей. — techtimes.com

ИИ

19.05.2026

Tom K.

agent skills, mmskills, techtimes.com, автоматизация, ии-агенты, мультимодальность, процедурные знания

SenseTime запускает SenseNova U1: курс на эру универсальных моделей понимания и генерации

SenseTime открывает исходный код SenseNova U1 — унифицированной мультимодальной модели, построенной на архитектуре NEO-unify, которая объединяет понимание и генерацию в единую структуру. — pandaily.com

ИИ

29.04.2026

Pandaily

neo-unify, pandaily.com, sensenova u1, SenseTime, ИИ, мультимодальность

Meta* запускает «Muse Spark AI»: нейросеть с навыками рассуждения и встроенной мультимодальностью

Meta* обновила свою ИИ-экосистему новой моделью Muse Spark. Узнайте, как ее возможности рассуждения и предстоящий режим Contemplating mode призваны переопределить передовые рубежи ИИ. Читать далее… — neowin.net

Meta Muse Spark Llm ии мультимодальность neowin.net

Новости цифры

09.04.2026

Paul Hill

LLM, Meta, muse spark, neowin.net, ИИ, мультимодальность

Искать на сайте

Новости: мультимодальность

CVPR 2026 бьет рекорды: доля «Multimodal AI» выросла вдвое, а 4089 научных работ меняют вектор развития индустрии

Новая модель Gemma 4 12B от Google создана для работы на любом ноутбуке с 16 ГБ оперативной памяти

Stepfun открыла исходный код Step 3.7 Flash: оптимизированной LLM для эры агентов

Google Gemini Omni Flash: будущее разговорного ИИ с голосовым редактированием видео

ByteDance открыла исходный код «Lance»: нативную мультимодальную модель, работающую локально с 40 ГБ VRAM

ByteDance представила Lance — легковесную «native unified multimodal» AI-модель

Gemini Omni от Google превращает изображения, аудио и текст в видео — и это только начало

Визуальные карты состояний в навыках ИИ-агентов более чем вдвое повышают успешность работы компактных моделей в реальных задачах на рабочем столе

SenseTime запускает SenseNova U1: курс на эру универсальных моделей понимания и генерации

Meta* запускает «Muse Spark AI»: нейросеть с навыками рассуждения и встроенной мультимодальностью

Самое просматриваемое: