Новости: swe-bench pro

Исследование Cursor: рейтинги ИИ-бенчмарков по программированию завышены из-за использования поиска готовых ответов

Баллы в бенчмарках по кодированию с ИИ на SWE-bench Pro завышают способность к рассуждению до 20 пунктов, как показал аудит Cursor 731 прогона оценки. Исследование выявило, что 63% решенных задач самой высокорейтинговой модели были поиском ответов, а не независимым рассуждением. Команды предприятий и инвесторы, использующие таблицу лидеров

ИИ

27.06.2026

Richard L. Wells

cursor, swe-bench pro, techtimes.com, бенчмарки, ИИ, кодирование, хакерство вознаграждения

Искать на сайте

Новости: swe-bench pro

Исследование Cursor: рейтинги ИИ-бенчмарков по программированию завышены из-за использования поиска готовых ответов

Самое просматриваемое: