Наряду с новыми функциями ИИ для своих приложений Workspace, Google также выпустила новую модель Gemini Embedding 2. Это первая нативная мультимодальная модель внедрения от гиганта поисковых систем, которая отображает текст, изображения, видео и документы в едином пространстве внедрения (embedding space).
Для непосвященных: модели внедрения отличаются от генеративных моделей (таких как Gemini 3) тем, что они используются для «понимания» путем преобразования различных модальностей (текст, изображения или видео) в математический формат, называемый векторами, который машина может легко считывать и анализировать. Эти внедрения могут обеспечить более контекстно-зависимые результаты по сравнению с подходами, основанными на ключевых словах, посредством семантического поиска, классификации и кластеризации.
Первая модель внедрения от Google была ориентирована только на текст. Теперь Gemini Embedding 2 может отображать текст, изображения, видео, аудио и документы в едином пространстве внедрения и улавливать семантическое намерение в 100 языках. Gemini Embedding 2 имеет следующие ограничения для различных модальностей:
- Текст: контекстное окно до 8192 токенов
- Изображения: до шести изображений на запрос с поддержкой форматов PNG/JPEG
- Видео: до 120 секунд видеоввода в форматах MP4/MOV
- Аудио: принимает и встраивает аудиоданные без необходимости промежуточных расшифровок
- Документы: внедрение PDF-файлов объемом до шести страниц

Google пояснила в своем блоге, что новая модель «упрощает сложные конвейеры и улучшает широкий спектр мультимодальных последующих задач — от генерации с дополненным поиском (RAG) и семантического поиска до анализа тональности и кластеризации данных». Она может анализировать сложные взаимосвязи между различными типами медиа, принимая несколько модальностей ввода (например, изображения + текст) в одном запросе.
Говоря о примерах, гигант поисковых систем отметил, что внедрения Gemini могут помочь юристам найти критически важную информацию в процессе раскрытия доказательств при судебных разбирательствах. Было установлено, что мультимодальное внедрение Gemini повысило точность и полноту данных в миллионах записей, а также улучшило поиск изображений и видео.
Gemini Embeddings 2 (gemini-embedding-2-preview) теперь доступна в публичной предварительной версии через Gemini API и Vertex AI. Тем временем gemini-embedding-001 по-прежнему доступна для использования в сценариях, ориентированных только на текст.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Aditya Tiwari




