Однако, прежде чем этим агентам можно будет доверить бронирование поездок или проведение финансового анализа от имени пользователей, поставщики моделей и стартапы, создающие таких агентов, хотят убедиться, что они надежно работают в самых разных сценариях.
AI-лаборатории часто используют эталонные тесты (бенчмарки), чтобы продемонстрировать мощь своих моделей, но высокий балл, даже в бенчмарке, ориентированном на агентов, на самом деле не доказывает, что ИИ может правильно выполнять различные сложные задачи из реального мира.
Patronus AI, стартап, основанный в 2023 году бывшими исследователями Meta* AI Ананд Каннаппаном и Ребеккой Цянь, помогает разработчикам моделей и компаниям тонко настраивать модели для выполнения именно этой задачи, создавая симулированные цифровые среды для оценки производительности агентов.
Стартап из Сан-Франциско, по-видимому, решает важную проблему. По словам Гленна Соломона, управляющего директора Notable Capital, практически все передовые AI-лаборатории и многие новые стартапы теперь являются их клиентами, а спрос на симулированные среды компании он описывает как почти ненасытный.
Выручка Patronus за последний год выросла в 15 раз, что подогревает значительный интерес инвесторов. В четверг компания объявила о раунде финансирования Серии B на сумму 50 миллионов долларов под руководством Greenfield Partners при участии Notable Capital, Lightspeed, Datadog и Samsung. Общий объем привлеченных средств компании достиг 70 миллионов долларов.
Patronus использует так называемые «цифровые мировые модели» для создания реплик веб-сайтов и внутренних систем. В этих средах агенты подвергаются стресс-тестированию после обучения с использованием обучения с подкреплением (reinforcement learning), которое итеративно вознаграждает за успешное выполнение задачи и наказывает за ошибки.
AI-лаборатории видят большую ценность в этих цифровых симуляциях, поскольку они дают агентам возможность пробовать различные, порой непредсказуемые, сценарии. Компания сравнивает свой подход с тем, как Waymo обучала беспилотные автомобили, сначала создавая синтетические миры для проверки транспортных средств на предмет редких опасностей, таких как суровая погода или ребенок, выбегающий за мячом.
Разница с AI-агентами в том, что они склонны искать обходные пути, а это означает, что они не выполняют задачу должным образом. «Patronus очень хорошо выявляет эти уловки и следит за тем, чтобы модели несли ответственность», — сказал Соломон.
По словам Каннаппана, в настоящее время Patronus предоставляет свои симулированные цифровые миры для разработки программного обеспечения и финансов, но это только начало.
«Сегодня мы очень сосредоточены на проверяемых задачах, то есть на тех, которые можно немедленно проверить, но существует множество других областей, которые очень трудно или невозможно проверить», — сказал он.
Тот факт, что эти процессы проверяемы, не означает, что они просты. «Мы хотим иметь возможность создать среду, в которой агент может работать в течение 10 часов, 10 дней или 10 недель», — добавил Каннаппан.
Что касается конкурентов, Patronus считает, что в основном конкурирует с внутренними командами, которые AI-лаборатории уже создали для оценки поведения агентов. В то время как фирмы, работающие с человеческими данными, такие как Mercor и Surge, помогают разработчикам моделей с обучением с подкреплением, Patronus работает иначе, оценивая поведение агентов без какого-либо участия человека.
Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Marina Temkin




