Научатся ли техгиганты любить более дешевые ИИ-модели?

Russell Brandom

09.06.2026

ии модели затраты инференс экономика techcrunch.com

Если те же рабочие нагрузки ИИ могут быть решены более дешевыми моделями без ущерба для качества, это будет означать массовый сдвиг в экономике ИИ. Рост затрат заставляет пользователей искать более доступные модели. — techcrunch.com

Рост затрат уже вынудил пользователей пересмотреть в сторону меньших и более дешевых моделей. Такой подход к выбору моделей с учетом стоимости является новым, и пока неясно, как он повлияет на отрасль, но последствия, вероятно, будут значительными.

Один из прогнозов, наиболее четко сформулированный сооснователем Coinbase Брайаном Армстронгом, заключается в том, что это приведет к переходу подавляющего большинства задач на более дешевые модели.

«Спрос на интеллект почти бесконечен, но 80% рабочих нагрузок будут выполняться на моделях на 99% дешевле в течение 12–18 месяцев», — написал Армстронг в X. «20% рабочих нагрузок по-прежнему будут выполняться на моделях последнего поколения, где максимизация IQ имеет значение».

Трудно переоценить, насколько значительным сдвигом это станет для индустрии ИИ, если прогноз Армстронга сбудется.

До сих пор большинство компаний, занимающихся ИИ, конкурировали за качество, что означало по умолчанию использование самой передовой доступной модели. Если те же самые задачи могут быть решены более дешевыми моделями без ущерба для качества, это повлечет за собой массовый сдвиг в экономике ИИ. И что критически важно, значительная часть экономии будет исходить из карманов крупных лабораторий, нанеся финансовый удар по OpenAI и Anthropic как раз в тот момент, когда они готовятся к IPO.

Это потенциально сейсмическое изменение в отрасли, основанное на одном простом вопросе: готовы ли компании переключиться на меньшие модели?

Первоначальные тесты показывают, что при правильной организации системы более дешевые модели могут заменить более дорогие без потери качества. В недавнем тесте юридического ИИ-инструмента Harvey компания смогла снизить затраты на инференс в 3 раза без снижения качества. Тест, проведенный в партнерстве с платформой инференса Fireworks AI, объединил Claude Opus и GLM 5.1 от Fireworks, переключив самые ресурсоемкие задачи на Opus. Результатом стала значительно меньшая нагрузка с точки зрения времени работы сервера и общих затрат.

«Качество превыше всего, и в юриспруденции оно всегда будет на первом месте», — сказал TechCrunch сооснователь Harvey Гейб Перейра, говоря о юридических ИИ-услугах, которые предоставляет его стартап. «Однако определение качества меняется: от простого использования самой мощной модели для всего к использованию лучшей модели, которая дает правильный ответ наиболее эффективно».

Эта тенденция часто преподносится как противостояние крупных лабораторий и китайских или open-weight моделей, но это упускает из виду главное. Реальный водораздел проходит не между проприетарными и открытыми моделями; он между большими и малыми моделями. Вы можете сэкономить, переключившись с GPT-5.5 на V4 Flash от DeepSeek, но переход на GPT-5.4-mini сработает не хуже.

Идет активная ценовая война между внутренним инференсом крупных лабораторий и независимо обслуживаемыми open-weight моделями. Для более широкого вопроса о малом против большого не так уж важно, какая именно маленькая модель победит.

Все это может показаться очевидным — конечно, не следует использовать больше вычислительных ресурсов, чем необходимо, — но это противоречит подходу, ориентированному на масштабирование, который доминировал в отрасли до сих пор. Вдохновленные «горьким уроком», лаборатории активно занимались обучением моделей, требующих максимальных вычислений, раздвигая границы возможностей ИИ-моделей. Поскольку цены в значительной степени субсидировались инвесторами, у клиентов не было причин выбирать что-либо, кроме самого передового варианта.

Поскольку цены на токены растут, а субсидии замедляются, пользователи впервые сталкиваются с ценовым давлением. Мы не знаем, приведет ли новое ценовое давление к переходу корпоративных пользователей на меньшие модели. Они могли бы сэкономить, делая меньше запросов, используя меньше контекста или просто отказываясь от наименее перспективных развертываний.

Но если окажется, что большинство развертываний можно выполнять так же хорошо на меньшей модели, это может серьезно охладить растущий спрос на инференс — и поднять новые вопросы о том, как обосновать стоимость обучения передовой модели.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Russell Brandom

Оригинал статьи