Новости: swe-bench pro
Исследование Cursor: рейтинги ИИ-бенчмарков по программированию завышены из-за использования поиска готовых ответов
Баллы в бенчмарках по кодированию с ИИ на SWE-bench Pro завышают способность к рассуждению до 20 пунктов, как показал аудит Cursor 731 прогона оценки. Исследование выявило, что 63% решенных задач самой высокорейтинговой модели были поиском ответов, а не независимым рассуждением. Команды предприятий и инвесторы, использующие таблицу лидеров

Самое просматриваемое:
- Bitcoin Depot оштрафован на $18,5 млн – сталкивается…
- WatchGuard бьёт тревогу: критическая уязвимость…
- Как настроить ComfyUI для генерации изображений ИИ…
- ECARX берет управление бизнесом Flyme OS в свои руки…
- США прикрыли платформу для хранения паролей, которой…
- Результаты еженедельного опроса: Samsung Galaxy Z…
- Тим Суини из Epic: «нечестность» и «грубое…
- Исследователи из MIT возродили 40-летнюю концепцию…
- Новейший датчик присутствия от Aqara определяет,…
- Представитель сервисного центра Google сообщил…