Anthropic приходится постоянно обновлять задания для технических собеседований, чтобы кандидаты не могли списать их с помощью Claude.

anthropic,ии,тестирование,модель,opus,кандидаты

С 2024 года команда Anthropic по оптимизации производительности использует домашнее тестирование для соискателей. Однако по мере совершенствования инструментов кодирования на базе ИИ, тест вынужден постоянно усложняться, чтобы противостоять помощи ИИ при выполнении заданий.

Руководитель команды Тристан Хьюм рассказал об истории этого испытания в среду в своем блоге. «Каждая новая модель Claude заставляла нас переделывать тест», — пишет Хьюм. «При одинаковом лимите времени Claude Opus 4 превзошел большинство кандидатов-людей. Это все еще позволяло нам выделить самых сильных соискателей — но затем Claude Opus 4.5 сравнялся даже с ними».

В результате возникла серьезная проблема с оценкой кандидатов. Без личного надзора невозможно гарантировать, что кто-то не использует ИИ для мошенничества на тесте — и если это происходит, такой кандидат быстро выходит в лидеры. «В рамках тестового задания на дому мы больше не могли различать результаты наших лучших кандидатов и нашей самой мощной модели», — отмечает Хьюм.

Проблема мошенничества с помощью ИИ уже наносит ущерб школам и университетам по всему миру, и весьма иронично, что теперь с ней приходится разбираться и лабораториям искусственного интеллекта. Однако Anthropic также обладает уникальными возможностями для решения этой проблемы.

В итоге Хьюм разработал новый тест, который был в меньшей степени связан с оптимизацией оборудования, сделав его достаточно новым, чтобы поставить в тупик современные инструменты ИИ. Но в рамках публикации он поделился оригинальным тестом, чтобы посмотреть, сможет ли кто-либо из читателей предложить лучшее решение.

«Если вы сможете превзойти Opus 4.5, — говорится в публикации, — мы будем рады вас услышать».

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: