Компания Google выпустила приложение для диктовки, работающее в офлайн-режиме, под названием Google AI Edge Eloquent. Оно использует модели Gemma и доступно для загрузки на iOS. Согласно описанию в App Store, Google AI Edge Eloquent призвано «устранить разрыв» между тем, как люди говорят на самом деле, и профессиональным текстом. Система способна отфильтровывать слова-паразиты, такие как «эм», «э-э», а также самокоррекцию в середине предложения.
Хотя приложение в первую очередь ориентировано на офлайн-работу, что означает загрузку модели автоматического распознавания речи на основе Gemini на телефон, доступен и облачный режим. Как следует из названия, этот режим отправляет ваши данные моделям Gemini в облаке для обработки очистки текста. Локальная обработка предположительно быстрая и сохраняет конфиденциальность ваших аудиоданных, в то время как облачный вариант может обеспечить немного большее качество для сложных предложений.

Среди других функций приложения — возможность преобразовать расшифровку в ключевые моменты или изменить тон на официальный, короткий или длинный. Вы также можете просмотреть историю, чтобы узнать скорость в словах в минуту и общее количество слов из предыдущих сеансов. Приложение использует контекстный словарь, куда можно вручную добавлять жаргонизмы или импортировать определенные имена и ключевые слова из учетной записи Gmail.

В App Store у Google есть два приложения «AI Edge»: помимо Eloquent, существует также AI Edge Gallery. Второе приложение по сути является «песочницей», где можно полностью на устройстве запускать семейство моделей Gemma (включая новейшие Gemma 3n и Gemma 4). Функции AI Chat & Thinking в приложении Gallery позволяют в реальном времени просматривать пошаговый процесс рассуждений модели. Приложение также включает лабораторию промптов и инструменты бенчмаркинга, которые позволяют тестировать производительность различных моделей с открытым весом на вашем оборудовании.
Gemma 4 была выпущена совсем недавно как набор моделей с открытым весом, которые обеспечивают высококлассное логическое мышление на локальных машинах. Семейство включает размеры E2B и E4B для мобильных телефонов, а также более крупные варианты 26B и 31B для настольных компьютеров. Эти модели поддерживают «контекстное окно» 128K, а у более крупных вариантов — 256K.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – David Uzondu




