ИИ-компании хотят, чтобы вы перестали общаться с ботами и начали управлять ими

Benj Edwards

06.02.2026

ии Anthropic Openai агенты Claude Frontier arstechnica.com

Claude Opus 4.6 и OpenAI Frontier предлагают будущее управления ИИ-агентами. Компании переходят от ИИ как чат-бота к ИИ как команде, разделяющей задачи, что вызывает опасения на рынке ПО. — arstechnica.com

В четверг компании Anthropic и OpenAI выпустили продукты, построенные на одной и той же идее: вместо общения с одним ИИ-ассистентом пользователи должны управлять командами ИИ-агентов, которые разделяют работу и работают параллельно. Одновременные релизы являются частью постепенного сдвига в отрасли от ИИ как партнера по диалогу к ИИ как делегированной рабочей силе, и они вышли на неделе, когда эта самая концепция, по сообщениям, помогла обрушить акции программного обеспечения на 285 миллиардов долларов.

Остается открытым вопрос, будет ли эта модель надзора работать на практике. Текущие ИИ-агенты по-прежнему требуют значительного вмешательства человека для исправления ошибок, и ни одна независимая оценка не подтвердила, что эти мультиагентные инструменты надежно превосходят одного разработчика, работающего в одиночку.

Тем не менее, компании делают ставку на агентов. Вклад Anthropic — это Claude Opus 4.6, новая версия их самой мощной ИИ-модели, в сочетании с функцией под названием ” команды агентов” в Claude Code. Команды агентов позволяют разработчикам запускать несколько ИИ-агентов, которые разделяют задачу на независимые части, автономно координируют действия и выполняются параллельно.

На практике команды агентов выглядят как разделенная на экране терминальная среда: разработчик может переключаться между под-агентами с помощью Shift+Up/Down, взять на себя управление любым из них напрямую и наблюдать, как остальные продолжают работать. Anthropic описывает эту функцию как наиболее подходящую для “задач, которые разделяются на независимую, преимущественно читательскую работу, такую как обзор кодовой базы”. Она доступна в виде предварительной версии для исследований.

OpenAI, тем временем, выпустила Frontier, корпоративную платформу, которую она описывает как способ “нанимать ИИ-коллег, которые берут на себя многие задачи, выполняемые людьми на компьютере”. Frontier присваивает каждому ИИ-агенту собственную личность, разрешения и память, а также подключается к существующим бизнес-системам, таким как CRM, инструменты для обработки заявок и хранилища данных. “По сути, мы переводим агентов в настоящих ИИ-коллег”, — сказал Баррет Зоф, генеральный менеджер OpenAI по работе с корпоративными клиентами, в интервью CNBC.

Несмотря на ажиотаж вокруг этих агентов как коллег, по нашему опыту, эти агенты лучше всего работают, если рассматривать их как инструменты, усиливающие существующие навыки, а не как автономных коллег, как подразумевает маркетинговый язык. Они могут быстро создавать впечатляющие черновики, но все еще требуют постоянной человеческой коррекции.

Запуск Frontier состоялся всего через три дня после того, как OpenAI выпустила новое десктопное приложение для macOS для Codex, своего инструмента для кодирования с помощью ИИ, которое руководители OpenAI описали как “центр управления для агентов”. Приложение Codex позволяет разработчикам запускать несколько потоков агентов параллельно, каждый из которых работает над изолированной копией кодовой базы через Git worktrees.

OpenAI также выпустила GPT-5.3-Codex в четверг, новую ИИ-модель, которая лежит в основе приложения Codex. OpenAI утверждает, что команда Codex использовала ранние версии GPT-5.3-Codex для отладки собственного процесса обучения модели, управления ее развертыванием и диагностики результатов тестов, аналогично тому, что OpenAI сообщала Ars Technica в декабрьском интервью.

“Наша команда была поражена тем, насколько Codex смог ускорить собственную разработку”, — написала компания. На Terminal-Bench 2.0, бенчмарке для кодирования с использованием агентов, GPT-5.3-Codex показал результат 77,3%, что примерно на 12 процентных пунктов превосходит недавно выпущенный Opus 4.6 от Anthropic.

Общей темой всех этих продуктов является изменение роли пользователя. Вместо того чтобы просто вводить запрос и ждать одного ответа, разработчик или специалист становится больше похож на руководителя, который распределяет задачи, отслеживает прогресс и вмешивается, когда агенту требуется руководство.

В этом видении разработчики и специалисты фактически становятся промежуточными менеджерами ИИ. То есть, они не пишут код и не проводят анализ сами, а делегируют задачи, проверяют результаты и надеются, что агенты под их началом не сломают что-нибудь незаметно. Придет ли это к исполнению (или действительно является хорошей идеей) — до сих пор широко обсуждается.

Новая модель под капотом Claude

Opus 4.6 — это существенное обновление флагманской модели Anthropic. Он сменяет Claude Opus 4.5, который Anthropic выпустила в ноябре. Впервые для семейства моделей Opus поддерживается контекстное окно до 1 миллиона токенов (в бета-версии), что означает возможность обработки гораздо больших объемов текста или кода за один сеанс.

По словам Anthropic, Opus 4.6 превосходит GPT-5.2 от OpenAI (более ранняя модель, чем выпущенная сегодня) и Gemini 3 Pro от Google по нескольким оценкам, включая Terminal-Bench 2.0 (тест на кодирование с использованием агентов), Humanity’s Last Exam (междисциплинарный тест на рассуждение) и BrowseComp (тест на поиск труднодоступной информации в Интернете).

Хотя стоит отметить, что GPT-5.3-Codex от OpenAI, выпущенный в тот же день, похоже, вернул себе лидерство в Terminal-Bench. На ARC AGI 2, который пытается протестировать способность решать задачи, легкие для человека, но сложные для моделей ИИ, Opus 4.6 показал результат 68,8%, по сравнению с 37,6% для Opus 4.5, 54,2% для GPT-5.2 и 45,1% для Gemini 3 Pro.

Как всегда, относитесь к бенчмаркам ИИ с долей скептицизма, поскольку объективное измерение возможностей ИИ-моделей — относительно новая и неустоявшаяся наука.

Anthropic также заявила, что на бенчмарке извлечения информации в длинном контексте под названием MRCR v2 Opus 4.6 показал результат 76% на варианте с 1 миллионом токенов, по сравнению с 18,5% для его модели Sonnet 4.5. Этот разрыв важен для использования команд агентов, поскольку агентам, работающим с большими кодовыми базами, необходимо отслеживать информацию в сотнях тысяч токенов, не теряя нить.

Цены на API остаются прежними, как и у Opus 4.5: 5 долларов за миллион входных токенов и 25 долларов за миллион выходных токенов, с премиальной ставкой 10/37,50 долларов за запросы, превышающие 200 000 токенов. Opus 4.6 доступен на claude.ai, через Claude API и на всех основных облачных платформах.

Рыночные последствия

Эти релизы произошли на неделе исключительной волатильности для акций программного обеспечения. 30 января Anthropic выпустила 11 плагинов с открытым исходным кодом для Cowork, своего инструмента для продуктивной работы с агентами, запущенного 12 января. Сам Cowork — это универсальный инструмент, который предоставляет Claude доступ к локальным папкам для рабочих задач, но плагины расширили его возможности для конкретных профессиональных областей: анализ юридических контрактов, сортировка соглашений о неразглашении, рабочие процессы соответствия требованиям, финансовый анализ, продажи и маркетинг.

К вторнику инвесторы, по сообщениям, отреагировали на выпуск снижением примерно на 285 миллиардов долларов рыночной стоимости акций компаний, занимающихся программным обеспечением, финансовыми услугами и управлением активами. Корзина американских акций программного обеспечения Goldman Sachs упала на 6% в тот день, что стало самым резким однодневным падением с момента распродажи, вызванной тарифами, в апреле. Thomson Reuters возглавила падение с 18-процентным снижением, и эта боль распространилась на европейские и азиатские рынки.

Предполагаемый страх среди инвесторов связан с тем, что компании, разрабатывающие ИИ-модели, предлагают полные рабочие процессы, которые конкурируют с существующими поставщиками программного обеспечения как услуги (SaaS), даже если еще не ясно, смогут ли эти инструменты выполнять такие задачи.

Frontier от OpenAI может усилить эту обеспокоенность: его заявленная конструкция позволяет ИИ-агентам входить в приложения, выполнять задачи и управлять работой с минимальным участием человека, что Fortune описала как попытку стать “операционной системой предприятия”. Фиджи Симо, генеральный директор OpenAI по приложениям, отверг идею о том, что Frontier заменяет существующее программное обеспечение, заявив журналистам: “Frontier — это, по сути, признание того, что мы не будем строить все сами”.

Независимо от того, оправдают ли эти приложения для совместной работы свои обещания, их сближение трудно не заметить. Скотт Уайт из Anthropic, руководитель отдела продуктового менеджмента компании для корпоративных клиентов, дал этой практике название, которое, вероятно, вызовет некоторое недоумение. “Все видели эту трансформацию в разработке программного обеспечения за последние полтора года, когда появилось понятие “vibe coding”, и люди теперь могли воплощать свои идеи”, — сказал Уайт в интервью CNBC. “Я думаю, что мы сейчас переходим почти к “vibe working”.”

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Benj Edwards

Оригинал статьи