ИИ-детекция художественных текстов достигла 93% точности по структуре: стилистические правки больше не спасают

Jerry Owens

05.07.2026

ии обнаружение структура нарратив проза Storyscope techtimes.com

Обнаружение ИИ-художественной литературы достигает 93% точности, используя только нарративную структуру — как разворачиваются сюжеты, заявляются темы и приходят концовки — а не стиль прозы. Исследование Университета Мэриленда и Google DeepMind на 61 608 историях показало, что стилистические правки не могут победить структурные признаки, поскольку литературные премии раскалываются.

Новый метод обнаружения художественной литературы, сгенерированной ИИ, достигает 93% точности — не анализируя выбор слов, ритм предложений или любые другие поверхностные особенности прозы — а путем анализа того, как истории построены: формы их сюжетов, моральных привычек их рассказчиков и степени, в которой их концовки заслужены или просто навязаны. Это различие имеет значение сейчас, поскольку техника, на которую издатели, члены жюри конкурсов и преподаватели полагались для выявления текстов, написанных ИИ, их активно подводит.

Несколько дней назад журнал Granta прекратил сотрудничество с Фондом Содружества после того, как появились обвинения в том, что среди рассказов, вышедших в шорт-лист премии Commonwealth Short Story Prize, оказалось сгенерированное ИИ произведение. Спор разгорелся вокруг рассказа «Змея в роще» (The Serpent in the Grove) писателя с Тринидада Джамира Назира, который выиграл Карибский региональный приз. Фонд Содружества проверил черновики авторов, документы с временными метками и наброски и пришел к выводу, что ИИ не использовался. Granta не согласился и все равно разорвал отношения. Этот случай наглядно демонстрирует проблему, которую команда из Университета Мэриленда и Google DeepMind поставила перед собой: как принять надежное решение, когда существующим инструментам обнаружения нельзя доверять?

Ответ, согласно статье, опубликованной на arXiv в апреле 2026 года, заключается в том, чтобы полностью перестать смотреть на стиль и начать анализировать структуру.

Почему обнаружение на основе стиля теряет эффективность

Каждый существующий коммерческий детектор ИИ работает на одной и той же базовой логике. Он измеряет статистические свойства самой прозы: насколько неожиданным является каждое слово с учетом предыдущего (перплексия), насколько сильно это удивление варьируется в предложениях (взрывность) и содержит ли текст определенные слова, знаки препинания или фразовые шаблоны, связанные с выводом ИИ. Эти сигналы реальны и исторически очень точны.

Проблема в том, что от них легко избавиться. Исследование, процитированное в статье StoryScope, показало, что тонкая настройка языковой модели для имитации человеческого стиля письма снижает уровень обнаружения инструментов, основанных на стиле, с 97% до 3% за один проход. GPT-5.4 уже незаметно снизил свое характерное чрезмерное использование тире к моменту появления в корпусе исследования. Стиль — это цель оптимизации; модели и редакторы-люди могут удалить его отпечатки, не меняя при этом лежащую в основе историю.

Именно это делает выводы StoryScope значимыми. Когда исследовательская группа Университета Мэриленда и Google DeepMind применила свой нарративный классификатор к историям, которые были отредактированы специально для удаления стилистических признаков, точность обнаружения снизилась менее чем на один процентный пункт, до 93,9%. Вы не можете отредактировать прозу так, чтобы избавиться от структурного отпечатка, потому что структурные решения, создающие этот отпечаток, и есть сама история.

Крупнейший корпус художественной литературы, созданный для этой цели

Исследование началось с 10 272 коротких рассказов, написанных людьми, взятых из корпуса Books3. Используя Gemini 2.5 Flash, команда реконструировала вероятный запрос на написание, стоящий за каждой историей — выводя предпосылку и описание персонажей из готового текста, а затем отправляя эти восстановленные запросы пяти моделям ИИ: Claude Sonnet 4.6, GPT-5.4, Gemini 3 Flash, DeepSeek V3.2 и Kimi K2.5. Каждый запрос генерировал пять историй, написанных ИИ, в дополнение к одному оригинальному, написанному человеком, что позволило создать параллельный корпус из 61 608 историй со средним объемом около 4 753 слов каждая.

Эта параллельная структура технически важна. Она позволила исследовательской группе — Дженне Рассел, Ришанта Раджендрану, Чау Минь Фаму и Мохиту Айьеру из Университета Мэриленда, а также Джону Витингу из Google DeepMind — сравнить, как шесть разных авторов подошли к одной и той же нарративной предпосылке. Различия, которые проявились между этими шестью версиями, не являются различиями жанра или предмета; это чистые различия в выборе повествования.

Затем конвейер StoryScope обработал все 61 608 историй в три автоматизированных этапа. Во-первых, GPT-5.1 преобразовал каждую историю в структурированный шаблон JSON, организованный по десяти нарративным измерениям, взятым из таксономии NarraBench: агенты (персонажи и их мотивация), социальные сети, события, структура сюжета, сеттинг, временная организация, откровение (как раскрывается смысл), перспектива, стилистические маркеры и общая структура. Эти шаблоны сжимали прозу в поля, описывающие нарративное содержание — кто что сделал с кем, когда, в каком порядке и как разрешилась история — не сохраняя сами слова.

Во-вторых, GPT-5.1 сравнил шесть версий шаблонов, созданных по каждому из 100 случайно выбранных запросов, генерируя наблюдения о том, где источники ИИ последовательно расходились с человеческим и друг с другом. В-третьих, эти наблюдения были формализованы в 304 дискретных, измеримых признака — вопросы с конкретными вариантами ответов, например, заявляют ли рассказчики явно тему истории, существуют ли побочные сюжеты или насколько хронологически прерывиста временная структура истории.

Классификатор XGBoost, обученный на этих 304 признаках — все структурные, ни одного стилистического — достиг макро-F1-оценки 93,2% в задаче обнаружения «человек против ИИ». Компактный набор всего из 30 основных признаков сохранил более 97% этой производительности. Статья в настоящее время проходит рецензирование в качестве препринта.

Что на самом деле делает ИИ в художественной литературе: шесть последовательных нарративных признаков

Наиболее последовательные различия между ИИ и человеческой художественной литературой в корпусе StoryScope сводятся к нескольким повторяющимся привычкам.

Рассказчики ИИ объясняют урок. Рассказчики в историях ИИ явно заявляют тему истории в 77% случаев, по сравнению с 52% у авторов-людей. Диалог в историях ИИ служит философским дебатам — персонажи говорят о том, что означает история — в 59% случаев, по сравнению с 34% в историях, написанных людьми. Результат — художественная литература, которую легко обобщить, но от которой трудно получить сюрприз.

Сюжеты ИИ чистые и линейные. Только в 21% историй ИИ присутствуют побочные сюжеты, по сравнению с 43% историй, написанных людьми. Главные герои ИИ разрешают свои собственные арки через внутреннее принятие в 47% случаев, по сравнению с 27% в художественной литературе, написанной людьми. Разрешение наступает по расписанию, доставляемое главным героем, который всегда должен был его доставить.

Эмоции приходят по формуле. Модели ИИ усвоили, что демонстрация, а не рассказ об эмоциях означает обращение к части тела или погодному явлению: сжимающаяся грудь, холодная комната, дождь, соответствующий настроению. Исследование показало, что в 81% историй ИИ эмоции передаются через физические ощущения и воплощенную метафору, по сравнению с 38% историй, написанных людьми. Авторы-люди заметно чаще называют эмоцию напрямую — в 29% человеческих историй против 8% историй ИИ.

Человеческие истории обитают на более странной территории. Команда измерила «нарративную редкость» каждой истории — насколько необычна ее комбинация структурных признаков в полном корпусе из 61 608 историй. Человеческие истории представлены в избытке в самых редких 10% распределения. При получении одного и того же запроса человеческая история была самой редкой из шести версий в 57,8% случаев. Истории ИИ группируются вместе в узнаваемой общей области нарративного пространства. Человеческие истории рассеиваются.

Отсылки к реальному миру исчезают. Писатели-люди называют вещи — конкретные книги, фильмы, авторов, культурные ориентиры. Человеческие истории ссылаются на внешние тексты почти вдвое чаще, чем истории ИИ (47% против 24%). Рассказчики-люди обращаются к читателю напрямую в четыре раза чаще, чем рассказчики ИИ (28% против 7%). Художественная литература ИИ тяготеет к расплывчатым, взаимозаменяемым аллюзиям.

У каждой модели есть свой нарративный отпечаток

Задача шестисторонней классификации — определение не только того, написана ли история ИИ, но и какой конкретной моделью — достигла точности 68,4%, что значительно выше случайного угадывания для шестиклассовой задачи. Каждая модель оставляет свой собственный структурный след.

Claude Sonnet 4.6 производит заметно плоскую эскалацию событий: напряжение редко достигает острого пика перед разрешением. GPT-5.4 имеет перекос в сторону сцен сновидений и социального обрамления, основанного на сплетнях. Gemini 3 Flash по умолчанию использует внешнее физическое описание персонажей, а не внутреннюю мотивацию. DeepSeek V3.2 и Kimi K2.5 группируются наиболее тесно — их труднее всего отличить друг от друга — и располагаются ближе всего к Gemini в нарративном пространстве признаков.

Клод был определен как наиболее структурно отличная из пяти моделей ИИ в целом. GPT и Клод были двумя наиболее индивидуально идентифицируемыми в шестисторонней задаче. Gemini, DeepSeek и Kimi образовали более тесную группу. Но общая закономерность заключается в том, насколько сильно все пять моделей ИИ перекрываются друг с другом по сравнению с тем, насколько любая из них перекрывается с историями, написанными людьми: разные отпечатки, все они обитают в одном и том же узнаваемо сформированном ИИ регионе нарративного пространства.

Почему ИИ строит истории именно так

Механизм, лежащий в основе этих закономерностей, — тот же самый механизм, который управляет выводами ИИ во всех областях: оптимизация. Языковые модели обучаются генерировать текст, который выглядит как правильный, связный ответ на запрос. В художественной литературе это означает чистое разрешение предпосылки, обеспечение читаемости арки и избегание нарративных выборов, которые могут показаться произвольными или необоснованными. Модель вознаграждается за создание текста, который, кажется, преуспел — а текст, который объясняет себя, аккуратно заканчивается и доставляет свои эмоциональные моменты через узнаваемые сигналы, кажется, преуспел.

Хорошая художественная литература часто черпает свою силу именно из тех выборов, которых избегает ИИ. Неразрешенные побочные сюжеты создают нарративное напряжение, которое сохраняется после окончания истории. Странные структурные решения делают историю запоминающейся, сопротивляясь обобщению. Морально неоднозначные персонажи заставляют читателей самостоятельно завершать интерпретацию. Концовки, которые лишают катарсиса, труднее писать и труднее забыть. Все это выборы, которые получают низкую оценку, когда цель — оптимизация, — потому что они выглядят как незавершенность, а не как изощренность.

Что результаты означают для текущего спора

Результаты StoryScope появились в тот момент, когда учреждения, на которые они больше всего влияют — издатели, члены жюри конкурсов, университеты и суды — сталкиваются с неадекватностью существующих методов обнаружения на основе стиля. Литературные премии раскалываются, как показывает случай Granta-Commonwealth, из-за обвинений в использовании ИИ, которые они не могут разрешить с уверенностью. 2 августа 2026 года вступают в силу обязательства ЕС по обеспечению прозрачности в рамках Закона об ИИ, создавая регуляторное давление на учреждения, чья инфраструктура обнаружения зависит от инструментов, которые демонстративно помечают авторов-людей с высокой частотой.

Обнаружение нарративной структуры решает проблему на другом уровне. Изменение структурных решений, которые измеряет StoryScope, означает изменение самой истории — переписывание сюжета, добавление побочных сюжетов, построение подлинной моральной неоднозначности, введение временной сложности. Это не правка прозы; это структурная переработка. И это требует автора, способного аутентично принимать эти нарративные решения, что именно и утверждает исследование, что ИИ пока не может делать последовательно.

Код StoryScope, 10 272 запроса на написание и 51 336 сгенерированных ИИ повествований общедоступны в репозитории GitHub для исследователей и разработчиков, создающих будущие инструменты обнаружения.

Часто задаваемые вопросы

Можете ли вы определить, была ли история написана ИИ, не глядя на выбор слов?

Да, согласно исследованию StoryScope. Классификатор, обученный исключительно на структурных нарративных признаках — как формируются сюжеты, существуют ли побочные сюжеты, как заявляются темы, как доставляются эмоциональные моменты — достиг 93,2% точности в различении человеческой и ИИ-художественной литературы, даже когда все стилистические сигналы были исключены. Компактный набор из 30 основных структурных признаков сохранил более 97% этой производительности.

Какие нарративные закономерности общие для художественной литературы ИИ разных моделей?

Несмотря на то, что они были созданы пятью различными системами ИИ, обученными разными организациями, истории ИИ в исследовании сгруппировались в общем регионе нарративного пространства. Все пять моделей чрезмерно объясняли темы, отдавали предпочтение линейным однопутным сюжетам, разрешали арки главных героев через внутреннее принятие и передавали эмоции через физические ощущения гораздо чаще, чем авторы-люди. Структурная конвергенция сохранялась, даже когда учитывались стилистические различия пяти моделей.

Почему детекторы ИИ, основанные на стиле, продолжают давать сбои и решает ли нарративное обнаружение эту проблему?

Детекторы, основанные на стиле, измеряют перплексию и взрывность — статистические свойства текста, которые могут быть снижены путем тонкой настройки или редактирования человеком. Исследование, процитированное в статье StoryScope, показало, что тонкая настройка снижает точность обнаружения стиля с 97% до 3%. Уклониться от обнаружения нарративной структуры сложнее, поскольку изменение структурных признаков означает переписывание сюжета, а не редактирование прозы. После того как истории исследования были отредактированы для удаления стилистических сигналов ИИ, снижение точности нарративного обнаружения составило менее одного процентного пункта, до 93,9%.

Что означает то, что человеческие истории статистически реже, чем истории ИИ?

Исследование измеряло «нарративную редкость» каждой истории — насколько необычна ее комбинация структурных признаков в полном корпусе из 61 608 историй. Истории, написанные людьми, были представлены в избытке в самых редких 10% распределения. При получении одного и того же запроса человеческая история была самой редкой из шести созданных версий (одна человеческая, пять ИИ) в 57,8% случаев. Это говорит о том, что то, что делает человеческую художественную литературу отличительной, — это не какой-либо один нарративный выбор, а более высокая тенденция комбинировать нарративные признаки необычным образом — своего рода структурная оригинальность, которую одна лишь оптимизация не производит.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Jerry Owens

Оригинал статьи

В тренде:

storyscope, techtimes.com, ИИ, нарратив, обнаружение, проза, структура

Искать на сайте

ИИ-детекция художественных текстов достигла 93% точности по структуре: стилистические правки больше не спасают

Почему обнаружение на основе стиля теряет эффективность

Крупнейший корпус художественной литературы, созданный для этой цели

Что на самом деле делает ИИ в художественной литературе: шесть последовательных нарративных признаков