Руководитель команды Тристан Хьюм рассказал об истории этого испытания в среду в своем блоге. «Каждая новая модель Claude заставляла нас переделывать тест», — пишет Хьюм. «При одинаковом лимите времени Claude Opus 4 превзошел большинство кандидатов-людей. Это все еще позволяло нам выделить самых сильных соискателей — но затем Claude Opus 4.5 сравнялся даже с ними».
В результате возникла серьезная проблема с оценкой кандидатов. Без личного надзора невозможно гарантировать, что кто-то не использует ИИ для мошенничества на тесте — и если это происходит, такой кандидат быстро выходит в лидеры. «В рамках тестового задания на дому мы больше не могли различать результаты наших лучших кандидатов и нашей самой мощной модели», — отмечает Хьюм.
Проблема мошенничества с помощью ИИ уже наносит ущерб школам и университетам по всему миру, и весьма иронично, что теперь с ней приходится разбираться и лабораториям искусственного интеллекта. Однако Anthropic также обладает уникальными возможностями для решения этой проблемы.
В итоге Хьюм разработал новый тест, который был в меньшей степени связан с оптимизацией оборудования, сделав его достаточно новым, чтобы поставить в тупик современные инструменты ИИ. Но в рамках публикации он поделился оригинальным тестом, чтобы посмотреть, сможет ли кто-либо из читателей предложить лучшее решение.
«Если вы сможете превзойти Opus 4.5, — говорится в публикации, — мы будем рады вас услышать».
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Russell Brandom




