Я построил замки из зефира в новом генераторе миров Google с искусственным интеллектом

ии Deepmind Project Genie модели мира генерация контента игры

Google DeepMind открывает доступ к Project Genie — ИИ-инструменту для создания игровых миров. Подписчики Google AI Ultra в США теперь могут генерировать интерактивные среды по текстовым запросам или изображениям, используя модели Genie 3, Nano Banana Pro и Gemini. Инструмент находится на стадии экспериментальной разработки и собирает отзывы пользователей.

Google DeepMind открывает доступ к Project Genie — инструменту на базе искусственного интеллекта для создания интерактивных игровых миров по текстовым описаниям или изображениям.

Начиная с четверга, подписчики Google AI Ultra в США смогут опробовать экспериментальный исследовательский прототип. Он работает на основе новейшей модели мира Genie 3 от Google, модели генерации изображений Nano Banana Pro и Gemini.

Этот шаг, предпринятый через пять месяцев после предварительного показа Genie 3, является частью более масштабной кампании по сбору отзывов пользователей и обучающих данных, поскольку DeepMind стремится разрабатывать более совершенные модели мира.

Модели мира — это системы искусственного интеллекта, которые создают внутреннее представление окружающей среды и могут использоваться для прогнозирования будущих событий и планирования действий. Многие лидеры в области ИИ, включая специалистов DeepMind, считают модели мира важнейшим шагом на пути к достижению общего искусственного интеллекта (AGI). Однако в более обозримом будущем лаборатории, такие как DeepMind, планируют выход на рынок, начиная с видеоигр и других форм развлечений, а затем переходя к обучению воплощенных агентов (то есть роботов) в симуляции.

Выпуск Project Genie от DeepMind происходит на фоне обострения гонки в области моделей мира. В конце прошлого года World Labs Фэй-Фэй Ли выпустила свой первый коммерческий продукт под названием Marble. Стартап Runway, занимающийся генерацией видео с помощью ИИ, также недавно представил свою модель мира. А стартап AMI Labs Яна ЛеКуна, бывшего главного научного сотрудника Meta*, также сосредоточится на разработке моделей мира.

«Я думаю, это здорово, что больше людей смогут получить доступ и дать нам обратную связь», — сказал Шломи Фрухтер, директор по исследованиям в DeepMind, в видеоинтервью TechCrunch, с широкой улыбкой выражая явное воодушевление по поводу выпуска Project Genie.

Исследователи DeepMind, с которыми общался TechCrunch, были откровенны относительно экспериментального характера инструмента. Он может быть непоследовательным: иногда впечатляюще генерирует игровые миры, а иногда выдает сбивающие с толку результаты, не соответствующие ожиданиям. Вот как это работает.

Я построил замки из зефира в новом генераторе миров Google с искусственным интеллектом

Вы начинаете с «наброска мира», предоставляя текстовые запросы как для окружения, так и для главного персонажа, которым вы позже сможете управлять в мире от первого или третьего лица. Nano Banana Pro создает изображение на основе запросов, которое вы, теоретически, можете изменить перед тем, как Genie использует его как отправную точку для интерактивного мира. Модификации в основном работали, но модель иногда спотыкалась и могла сделать вам фиолетовые волосы, когда вы просили зеленые.

Вы также можете использовать реальные фотографии в качестве основы для создания мира, что, опять же, работало с переменным успехом. (Об этом позже.)

Как только вы будете удовлетворены изображением, Project Genie потребуется несколько секунд для создания исследуемого мира. Вы также можете перерабатывать существующие миры в новые интерпретации, дополняя их запросы, или исследовать курируемые миры в галерее или с помощью инструмента случайного выбора для вдохновения. Затем вы можете загрузить видео исследованного мира.

В настоящее время DeepMind предоставляет только 60 секунд генерации и навигации по миру, отчасти из-за бюджетных и вычислительных ограничений. Поскольку Genie 3 является авторегрессионной моделью, ей требуется значительная вычислительная мощность, что накладывает жесткие ограничения на то, сколько DeepMind может предоставить пользователям.

«Причина, по которой мы ограничиваемся 60 секундами, заключается в том, что мы хотели предоставить его большему числу пользователей», — сказал Фрухтер. «По сути, когда вы им пользуетесь, где-то есть чип, который принадлежит только вам и выделен для вашей сессии».

Он добавил, что продление этого времени сверх 60 секунд снизит инкрементальную ценность тестирования.

«Окружение интересно, но в какой-то момент из-за уровня взаимодействия динамика среды несколько ограничена. Тем не менее, мы видим в этом ограничение, которое, мы надеемся, сможем улучшить».

Фантазии работают, реализм — нет

Я построил замки из зефира в новом генераторе миров Google с искусственным интеллектом

Когда я использовал модель, защитные механизмы уже работали. Я не мог генерировать ничего, напоминающего наготу, и не мог создавать миры, отдаленно напоминающие Диснея или другие материалы, защищенные авторским правом. (В декабре Disney направил Google официальное уведомление о прекращении противоправных действий, обвиняя модели ИИ компании в нарушении авторских прав путем обучения на персонажах и интеллектуальной собственности Disney и создании несанкционированного контента, среди прочего.) Я даже не мог заставить Genie генерировать миры с русалками, исследующими подводные сказочные земли, или ледяными королевами в их зимних замках.

Тем не менее, демонстрация была глубоко впечатляющей. Первый мир, который я построил, был попыткой воплотить в жизнь маленькую детскую фантазию: я мог исследовать замок в облаках, сделанный из зефира, с рекой из шоколадного соуса и деревьями из конфет. (Да, я был пухлым ребенком.) Я попросил модель сделать это в стиле пластилиновой анимации, и она создала фантастический мир, который мой детский «я» бы с удовольствием поглотил; пастельно-белые шпили и башни замка выглядели достаточно пухлыми и аппетитными, чтобы отломить кусочек и окунуть его в шоколадный ров. (Видео выше.)

Я построил замки из зефира в новом генераторе миров Google с искусственным интеллектом

Тем не менее, Project Genie все еще имеет некоторые недоработки.

Модели отлично справлялись с созданием миров на основе художественных запросов, таких как использование акварели, стиля аниме или классической мультяшной эстетики. Но они, как правило, терпели неудачу при создании фотореалистичных или кинематографичных миров, часто выглядящих скорее как видеоигра, чем как реальные люди в реальной обстановке.

Также модель не всегда хорошо реагировала на реальные фотографии. Когда я дал ей фотографию своего офиса и попросил создать мир, основанный на этой фотографии в точности, она выдала мир с некоторыми теми же предметами мебели в моем офисе — деревянный стол, растения, серый диван — расположенными иначе. И это выглядело стерильно, цифрово, нежизнеспособно.

Когда я загрузил фотографию своего рабочего стола с плюшевой игрушкой, Project Genie оживил игрушку, позволив ей перемещаться по пространству, и даже другие объекты иногда реагировали, когда она проходила мимо них.

Именно эту интерактивность DeepMind стремится улучшить. Несколько раз мои персонажи проходили сквозь стены или другие твердые объекты.

Я построил замки из зефира в новом генераторе миров Google с искусственным интеллектом

Когда DeepMind изначально выпустила Genie 3, исследователи подчеркивали, что авторегрессионная архитектура модели позволяла ей запоминать сгенерированное, поэтому я хотел проверить это, возвращаясь к частям уже сгенерированной среды, чтобы увидеть, будут ли они прежними. В большинстве случаев модель добивалась успеха. В одном случае я сгенерировал кота, исследующего очередной стол, и только один раз, когда я повернул обратно к правой стороне стола, модель сгенерировала вторую кружку.

Самым разочаровывающим для меня было управление пространством с помощью стрелок для обзора, пробела для прыжка или подъема, и клавиш WASD для перемещения. Я не геймер, поэтому это не давалось мне естественно, но клавиши часто не реагировали или отправляли вас в неправильном направлении. Попытка пройти из одной части комнаты к дверному проему на другой стороне часто превращалась в хаотичное зигзагообразное движение, похожее на попытку управлять тележкой для покупок со сломанным колесом.

Фрухтер заверил меня, что его команда осведомлена об этих недостатках, напомнив мне еще раз, что Project Genie — это экспериментальный прототип. В будущем, сказал он, команда надеется улучшить реализм и расширить возможности взаимодействия, в том числе предоставить пользователям больший контроль над действиями и окружением.

«Мы не рассматриваем [Project Genie] как конечный продукт, к которому люди могут возвращаться каждый день, но мы считаем, что в нем уже есть проблеск чего-то интересного, уникального и невозможного для реализации другим способом», — сказал он.

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: