Модели генерации изображений на основе ИИ обладают огромными массивами визуальных данных, из которых они черпают информацию для создания уникальных результатов. И все же, исследователи обнаружили, что когда модели предложено создавать изображения на основе серии медленно меняющихся запросов, они по умолчанию выбирают всего несколько визуальных мотивов, что приводит к созданию в конечном итоге весьма шаблонного стиля.
В исследовании, опубликованном в журнале Patterns, были протестированы два генератора изображений на базе ИИ — Stable Diffusion XL и LLaVA — путем игры в «визуальный телефон». Игра проходила следующим образом: модели Stable Diffusion XL давался короткий запрос, и она должна была создать изображение. Например: «Сидя в полном одиночестве, окруженный природой, я нашел старинную книгу ровно из восьми страниц, которая рассказывала историю на забытом языке, ожидая, когда ее прочтут и поймут». Это изображение затем представлялось модели LLaVA, которой предлагалось его описать. Это описание, в свою очередь, передавалось обратно в Stable Diffusion, которая должна была создать новое изображение на основе этого описания. Этот процесс продолжался в течение 100 раундов.

Подобно человеческой игре в «испорченный телефон», первоначальное изображение быстро терялось. В этом нет ничего удивительного, особенно если вы когда-либо видели таймлапс-видео, где люди просят модель ИИ воспроизвести изображение без каких-либо изменений, только для того, чтобы картинка быстро превратилась во что-то, отдаленно не напоминающее оригинал. Однако исследователей удивил тот факт, что модели по умолчанию выбирают всего несколько шаблонных стилей. В ходе 1000 различных итераций игры в «визуальный телефон» исследователи обнаружили, что большинство последовательностей изображений в конечном итоге сводились к одному из 12 доминирующих мотивов.
В большинстве случаев переход был постепенным. Несколько раз он происходил внезапно. Но происходил почти всегда. И исследователи не были впечатлены. В своем исследовании они назвали распространенные стили изображений «визуальной музыкой для лифта» — по сути, это тот тип картинок, которые вы увидите развешанными в номере отеля. Наиболее распространенные сцены включали морские маяки, формальные интерьеры, городские ночные пейзажи и деревенскую архитектуру.
Даже когда исследователи переключились на другие модели для генерации изображений и их описания, возникли те же тенденции. Исследователи отметили, что когда игра продлевалась до 1000 ходов, формирование единого стиля все еще происходило примерно к 100-му ходу, но в дополнительных ходах возникали вариации. Интересно, однако, что эти вариации по-прежнему обычно черпались из одного из популярных визуальных мотивов.

Так что же все это значит? В основном то, что ИИ не отличается особым творческим подходом. В человеческой игре в «испорченный телефон» вы получите крайние расхождения, потому что каждое сообщение передается и воспринимается по-разному, и у каждого человека есть свои внутренние предубеждения и предпочтения, которые могут повлиять на то, какое сообщение он получит. У ИИ обратная проблема. Каким бы нелепым ни был первоначальный запрос, он всегда будет по умолчанию выбирать узкий набор стилей.
Конечно, модель ИИ черпает информацию из запросов, созданных людьми, поэтому есть что сказать о наборе данных и о том, что люди предпочитают фотографировать. Если здесь и есть какой-то урок, так это, возможно, то, что копировать стили гораздо проще, чем учить вкусу.
Автор – AJ Dellinger




