Новый генератор изображений ChatGPT от OpenAI значительно упрощает подделку фотографий.

ии,генерация изображений,редактирование фото,openai,gpt image 1.5,мультимодальность

Новая модель GPT Image 1.5 от OpenAI революционизирует редактирование изображений, позволяя изменять фотографии с помощью текстовых описаний. Узнайте, как эта технология, конкурирующая с решениями Google, меняет наше представление о реальности и создает новые возможности для творчества и потенциальных злоупотреблений.

На протяжении почти 200-летней истории фотографии, убедительное изменение снимка требовало либо фотолаборатории, либо навыков работы в Photoshop, либо, как минимум, твердой руки с ножницами и клеем. Во вторник OpenAI выпустила инструмент, который сводит этот процесс к набору предложения.

Это не первая компания, добившаяся подобного. Пока OpenAI работала над разговорной моделью редактирования изображений с момента выхода GPT-4o в 2024 году, Google опередила OpenAI, выпустив в марте публичный прототип, а затем усовершенствовав его до популярной модели изображений Nano BananaNano Banana Pro). Восторженная реакция на модель редактирования изображений от Google в сообществе ИИ привлекла внимание OpenAI.

Новая модель OpenAI GPT Image 1.5 — это модель генерации изображений с использованием ИИ, которая, по сообщениям, создает изображения до четырех раз быстрее своего предшественника и стоит примерно на 20 процентов дешевле через API. Модель стала доступна всем пользователям ChatGPT во вторник и представляет собой еще один шаг к тому, чтобы фотореалистичная манипуляция изображениями стала обыденным процессом, не требующим особых визуальных навыков.

GPT Image 1.5 примечательна тем, что это «нативная мультимодальная» модель изображений, что означает, что генерация изображений происходит внутри той же нейронной сети, которая обрабатывает языковые запросы. (В отличие от DALL-E 3, предыдущего генератора изображений от OpenAI, ранее интегрированного в ChatGPT, который использовал другую технику, называемую диффузией, для создания изображений.)

Этот новый тип модели, который мы подробно освещали в марте, обрабатывает изображения и текст как один и тот же тип данных: фрагменты данных, называемые «токенами», которые нужно предсказать, и закономерности, которые нужно завершить. Если вы загрузите фотографию своего отца и наберете «надень на него смокинг на свадьбу», модель обработает ваши слова и пиксели изображения в едином пространстве, а затем выдаст новые пиксели так же, как выдала бы следующее слово в предложении.

Используя эту технику, GPT Image 1.5 может легче изменять визуальную реальность, чем предыдущие модели ИИ для генерации изображений, меняя позу или положение человека, или отображая сцену под немного другим углом, с различной степенью успеха. Она также может удалять объекты, изменять визуальные стили, корректировать одежду и уточнять отдельные области, сохраняя при этом сходство лиц при последовательных изменениях. Вы можете вести диалог с моделью ИИ об изображении, уточняя и перерабатывая его, так же, как вы могли бы работать над черновиком электронного письма в ChatGPT.

Фиджи Симо, генеральный директор по приложениям OpenAI, написал в своем блоге, что интерфейс чата ChatGPT никогда не предназначался для визуальной работы. «Создание и редактирование изображений — это задача другого рода, и она заслуживает пространства, созданного для визуальных материалов», — написал Симо. Для этого OpenAI представила в боковой панели ChatGPT специальное пространство для создания изображений с предустановленными фильтрами и популярными запросами.

Время выпуска, похоже, является прямым ответом на технические достижения Google в области ИИ, включая массовый рост пользовательской базы чат-ботов. В частности, модель изображений Google Nano BananaNano Banana Pro) стала популярной в социальных сетях после своего выпуска в августе благодаря своей способности относительно четко отображать текст и последовательно сохранять лица при редактировании.

Предыдущая модель генерации изображений OpenAI на основе токенов могла выполнять некоторые целевые правки на основе разговорных запросов, но часто изменяла детали лиц и другие элементы, которые пользователи хотели бы сохранить. GPT Image 1.5, похоже, разработана для соответствия функциям редактирования, которые уже представила Google. Но если вам больше нравится старый генератор изображений ChatGPT, OpenAI утверждает, что предыдущая версия останется доступной в качестве пользовательского GPT (пока) для тех, кто предпочитает ее.

GPT Image 1.5 не идеальна. В ходе нашего краткого тестирования она не всегда хорошо следовала инструкциям запросов. Но когда она работает, результаты кажутся более убедительными и детализированными, чем у предыдущей мультимодальной модели изображений OpenAI. Для более детального сравнения консультант по программному обеспечению Шон Педичини создал обучающий сайт («GenAI Image Editing Showdown»), который проводит A/B-тестирование различных моделей ИИ.

И хотя мы много писали об этом за последние несколько лет, вероятно, стоит повторить, что барьеры для реалистичного редактирования и манипулирования фотографиями постоянно снижаются. Такой вид бесшовного, реалистичного, легкого манипулирования изображениями с помощью ИИ может вызвать (каламбур) культурную перекалибровку понимания того, что визуальные образы значат для общества. Для человека, выросшего в другую медийную эпоху, это также может показаться немного пугающим — видеть себя в ситуациях, которых на самом деле не было.

На протяжении большей части истории фотографии убедительная подделка требовала навыков, времени и ресурсов. Эти барьеры делали фальсификации достаточно редкими, чтобы мы могли относиться ко многим фотографиям как к разумному прокси-источнику правды, хотя они и могли (и часто подвергались) манипуляциям. Эта эпоха закончилась из-за ИИ, но GPT Image 1.5, похоже, устраняет еще больше оставшихся препятствий.

Возможность сохранять сходство лиц при редактировании имеет очевидную пользу для законного редактирования фотографий и столь же очевидный потенциал для злоупотреблений. Генераторы изображений уже использовались для создания интимных изображений без согласия и выдачи себя за реальных людей.

Учитывая эти опасности, генераторы изображений OpenAI всегда включали фильтр, который обычно блокирует сексуальный или насильственный контент. Но все же возможно создавать неловкие изображения людей без их согласия (даже если это нарушает условия обслуживания OpenAI), избегая при этом таких тем. Компания заявляет, что сгенерированные изображения включают метаданные C2PA, идентифицирующие их как созданные ИИ, хотя эти данные могут быть удалены при повторном сохранении файла.

Кстати о подделках, генерация текста была давней слабостью в генераторах изображений, которая медленно улучшалась. При запросе к некоторым старым моделям генерации изображений создать знак или плакат с определенными словами, результаты часто получались искаженными или с ошибками.

OpenAI заявляет, что GPT Image 1.5 может обрабатывать более плотный и мелкий текст. В блоге компании приводится демонстрация, где модель сгенерировала изображение газеты с многопараграфной статьей, включая заголовки, имя автора, таблицы с показателями и основной текст, который остается читаемым на уровне абзацев. Будет ли это работать при различных запросах, потребует более широкого тестирования.

Хотя газета в примере сейчас выглядит поддельной, это еще один шаг к потенциальному размыванию общественного восприятия исторической хроники доинтернетной эпохи по мере того, как генерация изображений становится все более реалистичной.

OpenAI признала в своем блоге, что новая модель все еще имеет проблемы, включая ограниченную поддержку определенных стилей рисования и ошибки при создании изображений, требующих научной точности. Но они считают, что со временем ситуация улучшится. «Мы верим, что находимся только в начале того, что может дать генерация изображений», — написала компания. И если судить по прогрессу за последние три года в области генерации изображений, они могут быть правы.