Эта статья впервые появилась на The Conversation.
В течение 2025 года дипфейки значительно улучшились. Сгенерированные ИИ лица, голоса и движения всего тела, имитирующие реальных людей, достигли качества, намного превзошедшего ожидания даже многих экспертов, высказанные всего несколько лет назад. Они также все чаще использовались для обмана людей.
Во многих повседневных сценариях — особенно в видеозвонках с низким разрешением и медиафайлах, распространяемых в социальных сетях — их реалистичность теперь достаточно высока, чтобы надежно обманывать неискушенных зрителей. В практическом плане, синтетические медиа стали неотличимы от аутентичных записей для обычных людей и, в некоторых случаях, даже для организаций.
И этот всплеск не ограничивается только качеством. Объем дипфейков вырос взрывообразно: фирма по кибербезопасности DeepStrike оценивает увеличение с примерно 500 000 онлайн-дипфейков в 2023 году до около 8 миллионов в 2025 году, при этом годовой рост приближается к 900%.
Я — ученый-компьютерщик, который исследует дипфейки и другие синтетические медиа. С моей точки зрения, ситуация, вероятно, ухудшится в 2026 году, поскольку дипфейки станут синтетическими исполнителями, способными реагировать на людей в реальном времени.
Радикальные улучшения
В основе этой радикальной эскалации лежит несколько технических сдвигов. Во-первых, реалистичность видео сделала значительный скачок благодаря моделям генерации видео, разработанным специально для поддержания временной согласованности. Эти модели создают видеоролики, которые имеют связное движение, последовательную идентификацию изображенных людей и контент, который имеет смысл от одного кадра к другому. Модели разделяют информацию, связанную с представлением личности человека, от информации о движении, так что одно и то же движение может быть сопоставлено с разными личностями, или одна и та же личность может иметь несколько типов движений.
Эти модели создают стабильные, связные лица без мерцания, деформации или структурных искажений вокруг глаз и линии челюсти, которые когда-то служили надежным криминалистическим доказательством дипфейков.
Во-вторых, клонирование голоса пересекло то, что я бы назвал «порогом неразличимости». Нескольких секунд аудио теперь достаточно, чтобы сгенерировать убедительный клон — в комплекте с естественной интонацией, ритмом, акцентом, эмоциями, паузами и шумом дыхания. Эта возможность уже подпитывает масштабное мошенничество. Некоторые крупные розничные торговцы сообщают о получении более 1000 мошеннических звонков, сгенерированных ИИ, в день. Перцептивные признаки, которые когда-то выдавали синтетические голоса, в значительной степени исчезли.
В-третьих, потребительские инструменты практически свели на нет технический барьер. Обновления от Sora 2 от OpenAI и Veo 3 от Google, а также волна стартапов означают, что любой может описать идею, позволить большой языковой модели, такой как ChatGPT от OpenAI или Gemini от Google, составить сценарий и сгенерировать отшлифованные аудиовизуальные медиафайлы за считанные минуты. AI-агенты могут автоматизировать весь процесс. Возможность генерировать связные, сюжетные дипфейки в большом масштабе была эффективно демократизирована.
Эта комбинация растущего количества и персонажей, почти неотличимых от реальных людей, создает серьезные проблемы для обнаружения дипфейков, особенно в медиа-среде, где внимание людей фрагментировано, а контент движется быстрее, чем его можно проверить. Уже был нанесен реальный вред — от дезинформации до целенаправленных преследований и финансовых афер — благодаря дипфейкам, которые распространяются до того, как люди успевают понять, что происходит.
Будущее — за реальным временем
Заглядывая вперед, траектория на следующий год ясна: дипфейки движутся к синтезу в реальном времени, который может создавать видеоролики, близко напоминающие нюансы внешности человека, что облегчает им уклонение от систем обнаружения. Граница смещается от статического визуального реализма к временной и поведенческой согласованности: модели, которые генерируют контент в прямом эфире или почти в прямом эфире, а не предварительно отрисованные клипы.
Моделирование личности сходится в унифицированные системы, которые фиксируют не только то, как выглядит человек, но и то, как он двигается, звучит и говорит в разных контекстах. Результат выходит за рамки «это похоже на человека X» и переходит к «это ведет себя как человек X во времени». Я ожидаю, что целые участники видеозвонков будут синтезироваться в режиме реального времени; интерактивные актеры, управляемые ИИ, чьи лица, голоса и манеры мгновенно адаптируются к подсказке; и мошенники, развертывающие адаптивные аватары вместо фиксированных видео.
По мере развития этих возможностей перцептивный разрыв между синтетическими и аутентичными человеческими медиа будет продолжать сокращаться. Значимая линия защиты сместится от человеческого суждения. Вместо этого это будет зависеть от защиты на уровне инфраструктуры. К ним относятся безопасное происхождение, такое как медиафайлы, подписанные криптографически, и инструменты для работы с контентом ИИ, использующие спецификации Коалиции за происхождение и подлинность контента. Это также будет зависеть от мультимодальных криминалистических инструментов, таких как Deepfake-o-Meter моей лаборатории.
Просто смотреть внимательнее на пиксели больше не будет достаточно.

Siwei Lyu, профессор компьютерных наук и инженерии; директор, UB Media Forensic Lab, Университет в Буффало
Эта статья переиздана из The Conversation под лицензией Creative Commons. Прочитайте оригинальную статью.
Всегда имейте в виду, что редакции некоторых изданий могут придерживаться предвзятых взглядов в освещении новостей.
9/8
Автор – Rhett Jones