Генерация кода с помощью искусственного интеллекта увеличивает количество и серьезность проблем, требующих проверки.
CodeRabbit, платформа для обзора кода на базе ИИ, пришла к такому выводу, проанализировав 470 запросов на слияние (pull requests) в открытых исходных кодах для своего отчета “State of AI vs Human Code Generation”.
Отчет показывает, что код, сгенерированный ИИ, содержит значительно больше дефектов логики, поддерживаемости, безопасности и производительности, чем код, созданный людьми.
В среднем запросы на слияние (PR), сгенерированные ИИ, содержат около 10,83 проблем, по сравнению с 6,45 проблемами в PR, созданных людьми. Это примерно в 1,7 раза больше при использовании ИИ, что означает более длительные проверки кода и повышенный риск дефектов.
Проблемы, вызванные PR, сгенерированными ИИ, также, как правило, более серьезны, чем ошибки, допущенные людьми. По данным отчета, PR, созданные ИИ, содержат в среднем в 1,4 раза больше критических проблем и в 1,7 раза больше основных проблем, чем PR, написанные людьми.
Таким образом, машинный код, похоже, требует от проверяющих иметь дело с большим объемом проблем, которые более серьезны, чем те, что присутствуют в коде, созданном людьми.
Эти выводы перекликаются с отчетом, опубликованным в прошлом месяце компанией Cortex, разработчиком портала для разработчиков на базе ИИ. Отчет “Engineering in the Age of AI: 2026 Benchmark Report” [PDF] компании показал, что количество PR на одного автора увеличилось на 20 процентов год к году, в то время как количество инцидентов на PR увеличилось на 23,5 процента, а частота сбоев изменений — примерно на 30 процентов.
Отчет CodeRabbit выявил, что код, сгенерированный ИИ, уступает коду, написанному людьми, по всем основным категориям проблем. Боты создали больше ошибок логики и корректности (в 1,75 раза), больше ошибок качества кода и поддерживаемости (в 1,64 раза), больше проблем безопасности (в 1,57 раза) и больше проблем с производительностью (в 1,42 раза).
Что касается конкретных проблем безопасности, то код, сгенерированный ИИ, в 1,88 раза чаще приводил к неправильной обработке паролей, в 1,91 раза чаще вызывал небезопасные объектные ссылки, в 2,74 раза чаще добавлял уязвимости XSS и в 1,82 раза чаще реализовывал небезопасную десериализацию, чем код, написанный людьми.
В одной области ИИ превзошел людей — в орфографии: ошибки в написании слов были в 1,76 раза чаще в PR, созданных людьми, чем в сгенерированных машиной. Кроме того, код, написанный людьми, имел в 1,32 раза больше проблем с тестируемостью, чем код, созданный ИИ.
“Эти выводы подтверждают то, что многие инженерные команды ощущали на протяжении 2025 года”, — заявил в своем заявлении Дэвид Локер, директор по ИИ в CodeRabbit. “Инструменты для написания кода на базе ИИ значительно увеличивают производительность, но они также вносят предсказуемые, измеримые недостатки, которые организации должны активно устранять”.
CodeRabbit предупреждает, что его методология имеет ограничения, такие как невозможность быть уверенным в том, что PR, помеченные как созданные человеком, действительно были написаны исключительно людьми.
Другие исследования, основанные на различных данных, пришли к иным выводам.
Например, в августовской научной работе исследователей из Неаполитанского университета “Human-Written vs. AI-Generated Code: A Large-Scale Study of Defects, Vulnerabilities, and Complexity” (Человеческий код против кода, сгенерированного ИИ: Масштабное исследование дефектов, уязвимостей и сложности) было обнаружено, что код на Python и Java, сгенерированный ИИ, “в целом проще и более повторяем, но более склонен к неиспользуемым конструкциям и захардкоженному отладке, в то время как код, написанный людьми, демонстрирует большую структурную сложность и более высокую концентрацию проблем с поддерживаемостью”.
Еще в январе 2025 года исследователи из Университета Монаша (Австралия) и Университета Отаго (Новая Зеландия) опубликовали научную работу под названием “Comparing Human and LLM Generated Code: The Jury is Still Out!” (Сравнение человеческого кода и кода, сгенерированного LLM: Вердикт еще не вынесен!).
“Наши результаты показывают, что, хотя GPT-4 способен создавать программные решения, он часто генерирует более сложный код, который может потребовать больше доработок для обеспечения поддерживаемости”, — написали ученые из Южного полушария. “Напротив, однако, наши результаты показывают, что большее количество тестовых случаев прошли для кода, сгенерированного GPT-4 по ряду задач, чем для кода, который был сгенерирован людьми”.
Что касается влияния инструментов ИИ на производительность разработчиков, исследователи из Model Evaluation & Threat Research (METR) сообщили в июле, что “инструменты ИИ замедлили работу разработчиков”.
Ваши результаты могут отличаться.
Отметим, что, по данным исследователя Trend Micro Дастина Чайлдса, Microsoft исправила 1139 CVE в 2025 году, что является вторым по величине годом по объему CVE после 2020 года.
Microsoft заявляет, что 30 процентов кода в определенных репозиториях было написано ИИ, а Copilot Actions содержит предупреждение о “последствиях безопасности включения агента на вашем компьютере”.
“Поскольку портфель Microsoft продолжает расти, а ошибки ИИ становятся все более распространенными, это число, вероятно, увеличится в 2026 году”, — написал Чайлдс в своем посте.
Но, по крайней мере, мы можем ожидать меньше опечаток в комментариях к коду. ®
Автор – Thomas Claburn




