В четверг Microsoft представила общедоступные предварительные версии трех собственных моделей машинного обучения, ориентированных на распознавание речи, синтез речи и генерацию изображений.
Этот выпуск делает бизнес Windows больше похожим на прямого конкурента OpenAI, а не просто инвестора – по состоянию на прошлый октябрь Редмонд владел долей в OpenAI на сумму около 135 миллиардов долларов.
Среди моделей: MAI-Transcribe-1, модель распознавания речи, обеспечивающая «точность корпоративного уровня на 25 языках при примерно на 50 процентов меньших затратах на ГПУ по сравнению с ведущими аналогами»; MAI-Voice-1, модель генерации речи, которая предположительно может создавать 60 секунд аудио менее чем за секунду на одном ГПУ; и MAI-Image-2, модель преобразования текста в изображение, что усугубляет отчаяние цифровых художников.
OpenAI как раз предлагает собственные модели распознавания речи, генерации речи и преобразования текста в изображение.
Модели Microsoft доступны через Foundry (ранее Azure AI Studio) — платформу для разработки ИИ-агентов и приложений.
Наоми Монепенни, руководитель продуктовой команды Microsoft Azure AI Foundry Models, активно продвигала появление этих моделей в посте в блоге.
«Это те же модели, которые уже используются в наших собственных продуктах, таких как Copilot, Bing, PowerPoint и Azure Speech, и теперь они эксклюзивно доступны разработчикам через Foundry», — написала она.
Модели хорошо подходят для распространенных корпоративных сценариев использования, таких как разработка агентов поддержки клиентов, способных распознавать речь и генерировать ответы. Монепенни предполагает, что модели также будут полезны для обеспечения субтитрами крупных мероприятий и совещаний, для субтитрирования и архивирования медиаматериалов, для образования и обучения, а также для сбора мнений клиентов и рынка по результатам фокус-групп, например.
Microsoft уже использует свои собственные наработки: функция Audio Expressions в Copilot работает на MAI-Voice-1, а служба транскрипции Voice Mode в Copilot использует MAI-Transcribe-1.
Разработчики могут опробовать эти две модели через Azure Speech.
Когда Microsoft объявила о пересмотре соглашения с OpenAI, компания из Редмонда указала, что партнерство продолжится как минимум до 2032 года — сценарий, который предполагает отсутствие краха рынка ИИ. Но он также выделил области конкуренции. «Microsoft теперь может самостоятельно заниматься AGI [общим искусственным интеллектом] в одиночку или в партнерстве с третьими сторонами», — заявила тогда компания. Это заявление само по себе дает Microsoft свободу действовать по-своему в области ИИ под видом исследований AGI.
У Microsoft есть стимул диверсифицировать риски. Связи с OpenAI показали напряженность в январе, когда инвесторы Microsoft сигнализировали о недовольстве зависимостью компании от значительных расходов OpenAI. Лидер хайпа в области ИИ сжигает денежные средства, и, по внутренним прогнозам, опубликованным The Information, в этом году он понесет убытки в размере $14 миллиардов. По сообщениям, в настоящее время ведется внутренняя работа по оптимизации фокуса на корпоративных клиентах, и в конце прошлого месяца OpenAI прекратила разработку своего прожорливого, но не слишком полезного видеогенератора Sora 2.
Две недели назад генеральный директор Microsoft Сатья Наделла объявил об изменениях в руководстве, затрагивающих продукты Copilot и инициативу по суперинтеллекту компании. Джейкоб Андреу был назначен руководителем направления Copilot в качестве исполнительного вице-президента по потребительским и коммерческим продуктам Microsoft, подчиняясь непосредственно Наделле. Теперь Copilot сосредоточен на четырех областях: опыт Copilot, платформа Copilot, приложения Microsoft 365 и модели ИИ.
Подразумевается, что сфера ответственности Андреу в отношении моделей ИИ не ограничивается простыми проверками в OpenAI о доступности моделей. И если бы амбиции Microsoft в области моделей были недостаточно очевидны, Наделла заявил, что Мустафа Сулейман продолжит руководить исследованиями ИИ в Microsoft — это было бы совершенно излишне, если бы целью оставалась зависимость от OpenAI. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Thomas Claburn




