Все плохие вещи, которые могут произойти при создании видео с Сорой

Sora,искусственный интеллект,AI,deepfake,OpenAI

Погрузитесь в мир Sora 2 и узнайте о скрытых последствиях использования передового ИИ. Энергопотребление, фейки и многое другое! Разбираемся, почему стоит быть осторожным с новыми технологиями.

Как только у меня появилась возможность, я скачал приложение Sora. Я загрузил фотографии своего лица — того самого, которое мои дети целуют перед сном, — и свой голос — тот самый, которым я говорю жене, что люблю ее, — и добавил их в свой профиль Sora. Я сделал все это, чтобы использовать функцию Sora “Cameo” и снять идиотское видео, где мой AI-клон расстреливается шариками с краской сотней пожилых обитателей дома престарелых.

Что я только что сделал? Приложение Sora работает на базе Sora 2, AI-модели – и, честно говоря, довольно впечатляющей. Она может создавать видеоролики самого разного качества, от банальных до глубоко сатанинских. Это черная дыра энергии и данных, а также распространитель весьма сомнительного контента. Как и многие вещи в наши дни, использование Sora кажется немного грязным делом, даже если вы точно не знаете, почему.

Итак, если вы только что сгенерировали видео в Sora, вот все плохие новости. Читая это, вы просите почувствовать себя немного грязным и виноватым, и ваше желание для меня закон.

Вот сколько электроэнергии вы только что использовали

Одно видео Sora использует что-то около 90 ватт-часов электроэнергии, согласно CNET. Это число является обоснованным предположением, основанным на исследовании энергопотребления графических процессоров компанией Hugging Face

OpenAI фактически не опубликовала данные, необходимые для этого исследования, и энергетический след Sora приходится определять на основе аналогичных моделей. Саша Лучиони, одна из исследователей Hugging Face, проводившая эту работу, кстати, недовольна подобными оценками. Она заявила MIT Technology Review: “Мы должны прекратить попытки реконструировать цифры на основе слухов” и говорит, что мы должны заставить такие компании, как OpenAI, публиковать точные данные. 

В любом случае, разные журналисты предоставили разные оценки, основанные на данных Hugginface. Например, Wall Street Journal предположил, что это где-то между 20 и 100 ватт-часами.

CNET сравнивает свою оценку с работой 65-дюймового телевизора в течение 37 минут. Journal сравнивает одно создание Sora с приготовлением стейка от сырого до полусырого на электрическом уличном гриле (потому что, видимо, такая штука существует).

В интересах того, чтобы вы чувствовали себя еще хуже, стоит прояснить пару моментов, касающихся этой проблемы энергопотребления. Во-первых, то, что я только что описал, – это энергозатраты от инференса, также известного как запуск модели в ответ на запрос. Фактическое обучение модели Sora потребовало неизвестного, но, безусловно, астрономического количества электроэнергии. LLM GPT-4 потребовала примерно 50 гигаватт-часов – по сообщениям, этого достаточно, чтобы обеспечить электроэнергией Сан-Франциско в течение 72 часов. Sora, будучи видеомоделью, потребовала больше этого, но насколько больше – неизвестно.

Если посмотреть с определенной точки зрения, вы берете на себя часть этих неизвестных затрат, когда решаете использовать модель, еще до того, как сгенерируете видео.

Во-вторых, отделение инференса от обучения важно еще и с другой точки зрения, когда пытаешься понять, насколько сильно виноват перед экологией (вы еще не пожалели, что спросили?). Вы можете попытаться абстрагироваться от высокой стоимости энергии как от чего-то, что уже произошло, – как корова в вашем бургере умерла несколько недель назад, и вы не можете ее воскресить, заказав Beyond patty, когда вы уже сели в ресторане. В этом смысле запуск любой облачной модели AI больше похож на заказ серфинга и дерна. “Корова” всех этих обучающих данных, возможно, уже мертва. Но “лобстер” вашего конкретного запроса все еще жив, пока вы не отправите свой запрос на “кухню”, то есть в центр обработки данных, где происходит инференс.

Вот сколько воды вы только что использовали:

Сожалею, но мы собираемся снова делать приблизительные подсчеты. Центры обработки данных используют большое количество воды для охлаждения – либо в системах замкнутого цикла, либо посредством испарения. Вам не нужно знать, какой центр обработки данных или несколько центров обработки данных участвовали в создании этого видео, где ваш друг в роли участника American Idol пукает песню “Camptown Races”.

Но это, вероятно, все равно больше воды, чем вам хотелось бы. Генеральный директор OpenAI Сэм Альтман утверждает, что один текстовый запрос ChatGPT потребляет “примерно одну пятнадцатую чайной ложки”, а CNET подсчитала, что видео стоит в 2000 раз дороже, чем генерация текста по энергозатратам. Таким образом, приблизительный подсчет может дать ответ в 0,17 галлона, или около 22 жидких унций – чуть больше пластиковой бутылки колы.

И это если вы принимаете слова Альтмана за чистую монету. Легко может быть и больше. Кроме того, те же соображения о стоимости обучения и стоимости инференса, которые применялись к энергопотреблению, применимы и здесь. Использование Sora, другими словами, не является разумным выбором с точки зрения воды. 

Существует небольшая вероятность того, что кто-то может сделать вашу действительно отвратительную дипфейковую копию.

Настройки конфиденциальности Cameo в Sora надежны – если вы о них знаете и пользуетесь ими. Настройки в разделе “Кто может это использовать” более или менее защищают ваше изображение от того, чтобы оно стало игрушкой для публики, если только вы не выберете параметр “Все”, что означает, что кто угодно может снимать видео Sora с вами. 

Даже если вы достаточно безрассудны, чтобы иметь общедоступный Cameo, у вас есть дополнительный контроль на вкладке “Настройки Cameo”, например, возможность описать словами, как вы должны выглядеть в видео. Здесь вы можете написать все, что захотите, например, “подтянутый, стройный и спортивный” или “всегда ковыряюсь в носу”. И вы также можете устанавливать правила о том, что вам никогда не должны показывать. Например, если вы соблюдаете кошер, вы можете сказать, что вас никогда не должны показывать поедающим бекон.

Но даже если вы не разрешаете никому другому использовать ваш Cameo, вы все равно можете утешиться неограниченной возможностью создавать ограждения, когда делаете видео о себе.

Но общие ограждения контента в Sora не идеальны. Согласно собственной карточке модели Sora от OpenAI, если кто-то достаточно сильно постарается, оскорбительное видео может проскользнуть сквозь трещины.

В карточке указаны показатели успешности для различных видов фильтров контента в диапазоне 95%-98%. Однако, если вычесть только неудачи, вы получите вероятность 1,6% сексуального дипфейка, 4,9% видео с насилием и/или жестокостью, 4,48% чего-то под названием “нарушающее политическое убеждение” и 3,18% экстремизма или ненависти. Эти шансы были рассчитаны на основе “тысяч враждебных запросов, собранных в ходе целевой проверки безопасности” – то есть намеренной попытки сломать ограждения с помощью запросов, нарушающих правила, другими словами.

Так что шансы на то, что кто-то сделает ваш сексуальный или жестокий дипфейк, невелики, но OpenAI (вероятно, мудро) никогда не говорила “никогда”.

Кто-то может снять видео, где вы трогаете какашки.

В моих тестах фильтры контента Sora в целом работали, как и было заявлено, и я ни разу не подтвердил то, что было сказано в карточке модели о ее неудачах. Я не создавал кропотливо 100 различных запросов, пытаясь обманом заставить Sora сгенерировать сексуальный контент. Если вы запросите камео себя обнаженным, вы получите сообщение “Нарушение контента” вместо вашего видео.

Однако некоторые потенциально нежелательные материалы настолько слабо контролируются, что совершенно не фильтруются. В частности, Sora, по-видимому, не беспокоится о скатологическом контенте и будет генерировать материалы такого рода без каких-либо ограждений, если только это не нарушает другие политики контента, такие как политики в отношении сексуальности и наготы.

Так что да, в моих тестах Sora генерировала видео Cameo, где человек взаимодействует с какашками, в том числе вычерпывает фекалии из туалета голыми руками. Я не собираюсь вставлять видео сюда в качестве демонстрации по понятным причинам, но вы можете проверить это сами. Это не потребовало никаких уловок или разработки запросов. 

По моему опыту, прошлые модели генерации изображений с помощью AI имели меры, предотвращающие подобные вещи, в том числе версия OpenAI для Bing, генератор изображений Dall-E, но этот фильтр, похоже, исчез в приложении Sora. Я не думаю, что это обязательно скандал, но это мерзко!  

Gizmodo попросил OpenAI прокомментировать это и обновит статью, если получит ответ. 

Ваше смешное видео может оказаться вирусным фейком кого-то другого. 

Sora 2 открыла огромную и бесконечную вселенную мистификаций. Вы, проницательный, разбирающийся в интернете потребитель контента, никогда бы не поверили, что что-то вроде вирусного видео ниже может быть реальным. На нем показаны кадры, снятые, по-видимому, спонтанно снаружи Белого дома. В аудиозаписи, которая звучит как подслушанный телефонный разговор, сгенерированный AI Дональд Трамп говорит какой-то неизвестной стороне не публиковать файлы Эпштейна и кричит: “Просто не давайте им выйти. Если я рухну, я потяну всех вас за собой”.

 
 
 
 
 
View this post on Instagram
 
 
 
 
 
 
 
 
 
 
 

A post shared by Preserving Black History (@preservinghistory)

Судя только по комментариям в Instagram, некоторые люди, похоже, поверили, что это реально

Создатель вирусного видео никогда не утверждал, что оно реально, заявив Snopes, который подтвердил, что оно было сделано Sora, что видео “полностью сгенерировано AI” и было создано “исключительно для художественных экспериментов и социальных комментариев”. Правдоподобная история. Оно было явно создано для хайпа и повышения заметности в социальных сетях. 

Но если вы публикуете видео в Sora в открытом доступе, другие пользователи могут загружать их и делать с ними все, что захотят, и это включает в себя публикацию их в других социальных сетях и притворство, что они реальны. OpenAI очень осознанно превратила Sora в место, где пользователи могут бесконечно прокручивать ленту новостей. Как только вы помещаете какой-либо контент в подобное место, контекст больше не имеет значения, и у вас нет никакого способа контролировать то, что произойдет с ним дальше. 

Самое просматриваемое: