Исправляем Claude с помощью Claude: Anthropic о применении «SRE» в разработке ИИ

Qcon London Sre ии Claude Llm инциденты theregister.com

QCon London: Алекс Палкуи из Anthropic рассказал, что Claude отлично ищет ошибки в логах со скоростью ввода-вывода, но путает корреляцию с причиной, оставаясь плохой заменой SRE. — theregister.com

QCon London Сотрудник команды по обеспечению надежности ИИ из Anthropic выступил на QCon London с докладом о том, почему Claude отлично справляется с поиском проблем, но все еще является плохой заменой инженера по надежности систем (SRE), постоянно путая корреляцию с причинно-следственной связью.

Алекс Палкуи ранее работал SRE в Google Cloud Platform. «Моя работа — поддерживать работу Claude», — сказал Палкуи, добавив: «Я использую большие языковые модели (LLM) для реального реагирования на инциденты». С января он обращается к Claude, прежде чем изучать другие инструменты мониторинга.

Исправляем Claude с помощью Claude: Anthropic о применении «SRE» в разработке ИИ

Алекс Палкуи выступает на QCon London 2026

Его команда загружена работой. «Claude выходит из строя чаще, чем хотелось бы любому из нас. Сегодня утром я участвовал в инциденте, даже находясь на конференции».

Автоматизирует ли Палкуи свою работу? Нет, ответил он. «Было бы лицемерно говорить, что Claude решает все. Моя команда существует, мы нанимаем на множество должностей, это должно показать вам, что нет, это не работает».

Однако он отметил, что «многие из нас не удивятся», если это сработает в будущем, а его доклад продемонстрировал, что ИИ уже полезен.

Рассказывая о своей карьере в области реагирования на инциденты, Палкуи отметил, что дежурство инженеров — это «налог на людей, потому что наши системы недостаточно хороши, чтобы заботиться о себе самими». Палкуи говорил о стрессе, связанном с дежурством. «Телефон вибрирует, проходит полсекунды, и вы переходите из состояния сна в режим руководителя инцидента… а затем в 9:00 утра приходите на работу и должны выглядеть профессионально и презентабельно».

Реагирование на инциденты, по его словам, можно условно разбить на цикл из четырех фаз: наблюдение, ориентация, принятие решения, действие. 

ИИ, по его словам, фантастически справляется с фазой наблюдения. «Он читает логи со скоростью ввода-вывода, ему не надоедает, и в масштабе это то, с чем не может сравниться ни один человек».

Он рассказал о реальном инциденте, когда в канун Нового года Claude Opus 4.5 выдавал ошибки HTTP 500. «Я открываю Claude Code и прошу его посмотреть. ИИ написал SQL-запрос, и “в считанные секунды получил ответ — необработанное исключение в классе обработки изображений”». Он выводит трассировку стека Python, но «не останавливается на этом». Claude определил сбойные запросы, проверил аккаунты, которые их отправили, и обнаружил 200 аккаунтов, «все отправляли по 22 изображения одновременно». Это выглядело подозрительно. Claude копнул глубже и обнаружил 4000 аккаунтов, созданных одновременно, большинство из которых были неактивны. ИИ сказал: «Перестаньте смотреть на 500-е ошибки, это мошенничество».

Без ИИ «я бы пометил это как баг, я бы не стал вызывать службу по борьбе с злоупотреблениями аккаунтами», — сказал Палкуи.

Его следующий пример менее позитивен. Обработка ИИ зависит от кэша «ключ-значение» (KV) для производительности. «Этот KV-кэш может занимать гигабайты, его очень легко сломать, он капризный, хрупкий». Когда он ломается, это вызывает много лишних вычислений, и мониторинг показывает гораздо больше запросов.

«Каждый раз я спрашивал Claude, что здесь произошло? Claude отвечал: увеличение объема запросов, это проблема с мощностью, вам нужно добавить больше серверов».

Проблема, по его словам, в том, что Claude «будет путать корреляцию с причинно-следственной связью». Это как новый сотрудник в команде: он подумает: «О, это проблема с мощностью, хотя на самом деле вы потеряли кэш».

«Вот почему мы не можем доверять LLM в реагировании на инциденты», — сказал Палкуи. Проблема в его неспособности «отойти назад и начать различать причинно-следственную связь и корреляцию… Нам, людям, это тоже бывает трудно».

Когда Claude просят составить отчет о постмортеме, он выдает «80-процентную историю, которая выглядит красиво, читабельно и убедительно», — сказал Палкуи, но «он очень плох в определении первопричин». Claude говорит: «Это была вот эта вещь, а мы все знаем, что это не одна вещь. Нет одной первопричины… Это никогда не был релиз. Это никогда не было изменение кода. Это были все процессы в компании, которые допустили инцидент. А Claude не знает истории вашей системы, особенно если вашей системе десять лет».

Важно, сказал Палкуи, чтобы SRE «уже обожглись раньше… у них был этот шрамовый опыт». Он опасается, что если ИИ будет использоваться активнее, «не атрофируются ли наши навыки?» — параллельно с опасениями, которые разработчики программного обеспечения часто высказывают по поводу того, что ИИ пишет большую часть кода.

Парадокс Джевонса, сказал Палкуи, — «любимый парадокс в индустрии ИИ. Это когда технологические улучшения повышают эффективность используемых нами ресурсов, но результирующее снижение стоимости приводит к росту потребления, а не к его падению».

В случае с программным обеспечением, «легче писать ПО, поэтому мы пишем его намного больше, поэтому сложность растет, а не уменьшается, что означает, что вещи ломаются более интересными способами, что означает больше инцидентов, больше дежурств… все улучшения в инструментарии будут сведены на нет этой постоянно растущей сложностью».

Возможно, сказал Палкуи, агенты ИИ смогут упростить и управлять этой сложностью, возможно, «сделать то, чему мы коллективно научились в нашей отрасли, но это большое “если”».

Он закончил на позитивной ноте, заявив: «Модели сегодня — самые плохие из тех, что когда-либо будут».

Однако общая мысль заключается в том, чтобы не доверять SRE искусственному интеллекту и продолжать обучать инженеров по надежности, потому что они понадобятся в будущем. ®

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: