Растущий разрыв между корпоративным и передовым ИИ выводит модели с «open weights» в центр внимания

ии открытые модели корпоративный ии Llm инфраструктура theregister.com

ФУНКЦИЯ: Большинству клиентов не нужны самые мощные модели, а нужны те, которые работают, стоят недорого и не будут пиратствовать их проприетарные данные. — theregister.com

ОСОБЕННОСТЬ Наступила весна, а это значит, что нас ждет очередная волна моделей ИИ с открытым весом от таких гигантов, как Google, Microsoft, Alibaba и Nvidia. Но на этот раз все кажется немного иным.

В прошлом эти модели ощущались как игрушки: исследовательские проекты и концепции, которые, несмотря на впечатляющие размеры или инновационность, все еще сильно уступали топовым моделям от OpenAI, Anthropic или Google.

Однако Qwen 3.5, Gemma 4 от Google и речевые и графические модели MAI от Microsoft — это нечто иное. Эти модели больше похожи на готовые корпоративные продукты, чем на концепции.

“Мы перешли от интересных разработок к серьезным корпоративным платформам”, — заявил Эндрю Басс, старший директор по исследованиям в IDC, в беседе с El Reg.

Эти модели подчеркивают суровую реальность: за последние несколько лет разрыв между корпоративным ИИ и передовым (frontier) ИИ значительно увеличился, а самые мощные модели становятся недоступными для многих предприятий.

“Я думаю, мы наблюдаем раскол, — сказал Басс. — Появляются эти крупные, целостные модели, которые пытаются быть всем для всех. Но в то же время мы видим рост небольших, более специализированных моделей, настроенных и ориентированных на более конкретные результаты или типы запросов”. 

Слепое пятно суверенного ИИ у передовых моделей?

Доступ к топовым моделям OpenAI или Anthropic требует передачи потенциально конфиденциальных данных клиентов или интеллектуальной собственности через API или чат-бот.

Обе компании настаивают на том, что не используют корпоративные данные или данные API для обучения своих моделей, но именно эти компании неоднократно привлекались к суду за нарушение авторских прав.

Предприятия, возможно, готовы использовать Gemini или Copilot для составления черновиков писем или коммерческих предложений, но предоставление им доступа к проприетарным данным — это табу. 

Альтернатива не идеальна. Существует несколько крупных китайских моделей от DeepSeek, Alibaba, Moonshot AI и MiniMax, которые могут приблизить вас к уровню OpenAI или Anthropic. Однако многие из этих моделей по-прежнему требуют значительных инвестиций в инфраструктуру. Даже системы, ориентированные на предприятия, от Nvidia и AMD обойдутся вам примерно в 250 000–500 000 долларов каждая.

Но в зависимости от сценария использования предприятиям не обязательно нужна модель передового класса. Важно то, достаточно ли хороша модель для достижения желаемого результата, — отметил Басс.

Учитывая их размер, новейшие открытые модели от Google, Alibaba, Microsoft и Nvidia не только удивительно конкурентоспособны, но и относительно дешевы в эксплуатации.

В текстовом рейтинге Arena AI, где пользователи голосуют за модели, выдающие лучшие результаты, Gemma 4 31B от Google (что означает 31 миллиард параметров, которые она содержит) теперь занимает четвертое место среди открытых моделей, сразу за GLM-5 от Z.AI и Kimi 2.5 Thinking от Moonshot AI, которые при 744 миллиардах и 1 триллионе параметров на порядки больше.

“Существует спрос и желание использовать ИИ в компаниях любого размера, и мы считаем, что это очень актуально для компаний среднего сегмента, — сказал Басс. — Для этого нам нужен спектр как аппаратного обеспечения инфраструктуры, так и типов моделей, которые могут на нем работать”.

Новая 31B-параметрическая модель Google может легко работать с полной 16-битной точностью на одной RTX Pro 6000 Blackwell с большим запасом для поддержки разумного количества одновременных запросов и интерактивности.

Такая карта обычно продается по цене от 8000 до 10 000 долларов. Похожая ситуация и с Qwen 3.5: все модели, кроме двух крупнейших, комфортно разместятся на одном GPU.

Во многих случаях этим небольшим моделям, ориентированным на корпоративный сектор, может не понадобиться даже столько вычислительных ресурсов, отмечает Басс. “Нам нечасто нужно такое, как ускорение на GPU. Даже многие из этих рабочих нагрузок ИИ в идеале можно загрузить и запустить на довольно современном сервере на базе ЦП”, — сказал он.

Эти меньшие, более сфокусированные модели означают, что им не требуется много дополнительных ресурсов, если вообще требуется, для их настройки с использованием таких методов, как тонкая настройка QLoRA или обучение с подкреплением. 

Что изменилось?

Так что же изменилось, что сделало эти модели настолько более функциональными? На самом деле, многое.

Прошедший год ознаменовался всплеском достижений не только в обучении моделей, но и в разработке фреймворков, необходимых для их использования.

Возможно, вы помните ажиотаж вокруг DeepSeek R1, которая была одной из первых открытых моделей передового уровня, применивших обучение с подкреплением (RL) для воспроизведения рассуждений “цепочки мыслей” GPT-o1, чтобы обменять время на более высокое качество результатов.

Этот подход, теперь называемый масштабированием во время тестирования (test-time scaling), помог небольшим моделям компенсировать меньшее количество параметров, “размышляя” дольше.

В прошлом году также многие модели получили поддержку обработки изображений и аудио, что позволило им анализировать визуальные данные, в то время как более интеллектуальные архитектуры и лучшие методы сжатия еще больше сократили вычислительные ресурсы и память, необходимые для их запуска.

Но, пожалуй, самое большое изменение заключается в том, что программное обеспечение, используемое для задействования этих моделей для выполнения реальной работы, значительно созрело.

Эти фреймворки означают, что модели не ограничены обучающими данными; они могут извлекать информацию из веба, баз данных и API, а также выполнять действия на основе результатов посредством вызовов инструментов. 

Модели Google и Nvidia были специально обучены с учетом вызова функций (function calling). Другими словами, они не предназначены для использования в качестве автономных моделей. Некоторые модели, такие как MAI от Microsoft, выводят это на новый уровень, оптимизируясь для конкретных областей, таких как распознавание речи и генерация изображений. 

Тогда задача состоит в том, как выбрать правильную модель для работы, — отмечает Басс, предполагая, что, вероятно, потребуется некая рекомендательная система.

Что получают разработчики моделей?

Возможность запускать локальные агенты с доступом к проприетарным данным имеет свои особенности. Во-первых, хотя эти модели открыты, определенная степень привязки к поставщику все же сохраняется. Любые агенты, созданные с использованием этих моделей, будут иметь системные подсказки и инструментарий, настроенные под эту конкретную архитектуру.

Речь идет о возможности охватить рынки, недоступные для более крупных моделей, — объяснил Басс. 

“Если люди разрабатывают с использованием ваших технологий, подходов и интеллектуальной собственности, они с большей вероятностью перейдут на более высокие уровни и останутся в вашей экосистеме”, — сказал он. “Это вопрос наличия продукта на начальном этапе… Если вы “ловите их молодыми”, по мере роста они, как правило, остаются с вами надолго”.

Помимо игры в экосистему, эти локальные модели могут помочь снизить энергопотребление центров обработки данных. Идея не отличается от GPT-5 от OpenAI, которая представляет собой не одну модель, а несколько, между которыми запросы динамически маршрутизируются не только на основе сложности, но и на основе различных политик.

Та же логика может быть применена дезагрегированным образом, когда маршрутизирующая модель, работающая локально, может направлять запросы, требующие доступа к проприетарным данным, к локальной LLM, в то время как менее чувствительные запросы могут быть переданы поставщику API.

“Я думаю, существует целый спектр доступных решений: от полностью частных локальных систем до выделенных в точках использования в колокационных центрах обработки данных, выделенных в публичном облаке, до общей среды для экономии затрат, если ваша рабочая нагрузка или запросы не являются конфиденциальными”, — сказал Басс. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: