В прошлом месяце Anthropic сократила TTL (время жизни) кэша промптов Claude Code с одного часа до пяти минут для многих запросов, но заявила, что это не должно увеличить расходы, несмотря на сообщения пользователей о более быстром исчерпании квот.
Пользователь Шон Суонсон опубликовал отчет об ошибке, демонстрирующий, что Anthropic ввела часовой кэш для контекста Claude Code примерно 1 февраля, а затем вернулась к пятиминутному кэшу около 7 марта. «Пятиминутный TTL непропорционально сильно наказывает за сценарии использования с длинными сессиями и высоким контекстом, которые определяют использование Claude Code», — заявил Суонсон.
При использовании ИИ-помощников или агентов для кодирования контекст — это дополнительные данные, отправляемые вместе с промптами пользователя, такие как существующий код или фоновые инструкции. Контекст повышает точность ИИ, но также требует больше вычислительных ресурсов.
Кэширование промптов Claude позволяет избежать повторной обработки ранее использованных промптов, включая контекст и фоновую информацию. Кэш может иметь TTL в пять минут или один час. Запись в пятиминутный кэш стоит на 25 процентов дороже в токенах, а запись в часовой кэш — на 100 процентов дороже, но чтение из кэша составляет около 10 процентов от базовой цены.
Джаред Самнер, создатель среды выполнения JavaScript Bun, который теперь работает в Anthropic, согласился, что анализ был «хорошей детективной работой», но утверждал, что переход обратно к пятиминутному кэшу сделал Claude Code дешевле, поскольку «значительная доля запросов Claude Code — это одноразовые вызовы, где кэшированный контекст используется один раз и больше не запрашивается». Самнер отметил, что клиент Claude Code определяет TTL кэша автоматически, и планов по глобальной настройке нет.
Суонсон скорректировал свой анализ в ответ, согласившись, что сессии с использованием субагентов выигрывают от более низкой стоимости записи в пятиминутном кэше, поскольку они взаимодействуют быстро и «их кэши почти никогда не истекают». Однако он заявил, что является подписчиком за 200 долларов в месяц более шести месяцев и никогда не достигал лимита квоты до марта. «Дополнительный темп расходования» делает «когда-то отличный сервис непригодным для использования», — сказал он.
Еще одним фактором является то, что большое контекстное окно в один миллион токенов, доступное в платных планах с моделями Claude Opus 4.6 или Sonnet 4.6, увеличивает расходы, особенно при промахах кэша. Создатель Claude Code Борис Черный заявил, что «промахи кэша промптов при использовании контекстного окна в 1 миллион токенов дороги… если вы отходите от компьютера более чем на час, а затем продолжаете устаревшую сессию, это часто приводит к полному промаху кэша». Он сообщил, что Anthropic рассматривает возможность использования контекстного окна в 400 000 токенов по умолчанию, с возможностью выбора одного миллиона токенов при желании. Для этого уже существует настройка конфигурации.
Черный отметил, что большие контексты стали обычным явлением, поскольку пользователи «подключают большое количество навыков, или запускают множество агентов или фоновых автоматизаций».
Некоторые разработчики убеждены, что перестройка кэша и промахи кэша являются основными факторами исчерпания квоты Claude Code, которое достигло точки, когда пользователи Pro (20 долларов в месяц) могут получить всего два промпта за пять часов. Был зарегистрирован ряд ошибок в коде кэширования, из-за чего один пользователь заявил: «Пока они не будут исправлены, любые обсуждения 5 минут против 1 часа, вероятно, не имеют значения, поскольку цифры совершенно неверны».
Фокус на оптимизации кэша также может свидетельствовать о том, что под капотом квоты Anthropic просто обеспечивают меньше времени обработки, чем раньше.
Суонсон не одинок в сообщениях о падении производительности Claude. Например, пользователь корпоративного тарифного плана сообщил: «В марте я мог использовать Opus весь день, и он давал отличные результаты. С последней недели марта и в апреле у меня были сессии, когда я исчерпывал лимит сессии менее чем за 2 часа, и он застревал в циклах чрезмерных размышлений, несколько итераций осознания одного и того же, десятки абзацев вроде „но подождите, на самом деле мне нужно сделать x“ с небольшими вариациями». Это совпадает с похожими комментариями от директора по ИИ в AMD.
Оптимизация кэша может быть важна, но маловероятно, что она объясняет все эти зафиксированные проблемы. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Tim Anderson




