Команда разработчиков больших языковых моделей Hunyuan от Tencent, в сотрудничестве с Сямэньским университетом, представила JarvisEvo – интеллектуального агента для редактирования изображений, созданного для того, чтобы редактировать изображения подобно дизайнерам, то есть видеть и корректировать одновременно.
JarvisEvo работает на основе механизма интерактивной мультимодальной цепи рассуждений (iMCoT): сначала он генерирует план редактирования, затем вызывает профессиональные инструменты (интегрируя более 200 инструментов, включая Adobe Lightroom), наблюдает визуальные результаты и решает, следует ли продолжить, пересмотреть или исправить свой подход. Этот рабочий процесс решает основную проблему цепей рассуждений, основанных только на тексте, которые часто приводят к “слепому редактированию” и галлюцинациям инструкций.
Чтобы обеспечить самосовершенствование, исследовательская группа представила структуру оптимизации политики синергетического редактирования и оценки (SEPO). Модель использует оценки самооценки в качестве внутренних вознаграждений, одновременно включая данные, аннотированные человеком, для калибровки своего эстетического суждения, предотвращая предвзятую или самообманную оптимизацию.
В оценках, проведенных на собственном наборе данных ArtEdit команды, JarvisEvo превзошел базовые модели по нескольким показателям и получил более высокие баллы в субъективных оценках людей.
Источник: liangziwei
Всегда имейте в виду, что редакции некоторых изданий могут придерживаться предвзятых взглядов в освещении новостей.
8/9
Автор – Pandaily




