Большие языковые модели не сильны во многих вещах, например, в счете пальцев или предложении рецептов пиццы. Но одна вещь, в которой «ИИ» действительно хорош, — это анализ огромных объемов данных и поиск возможных связей, которые не очевидны сразу. Это делает их идеальными для разоблачения анонимных интернет-постов, согласно новой исследовательской работе.
Исследователи из ETH Zurich и стипендиаты MATS, связанные с Беркли, запустили программу, собирая данные из источников с, как правило, анонимными именами пользователей, например, с Reddit. Собирая посты пользователей из связанных, но разных сабреддитов о кино, а затем подавая в LLM данные из утечки данных Netflix, они смогли точно определить конкретных пользователей, связанных с этими учетными записями, и, таким образом, связать их с их реальными именами.
Всего по одной рекомендации фильма, опубликованной на Reddit, можно было с точностью до 90% установить личность 3,1 процента анонимных пользователей, привязав их к конкретной учетной записи Netflix с указанием имени. При пяти-девяти рекомендациях фильмов этот показатель подскочил до 23,2 процента. При более чем 10 рекомендациях он вырос до поразительных 48,1 процента, при этом 17 процентов от общего числа были идентифицированы с почти полной уверенностью.
Другой эксперимент был проведен путем сопоставления анонимных учетных записей на Hacker News (форум, а не злонамеренный сайт) с публично подтвержденными личностями в LinkedIn. Пользователи, которые со временем публиковали обобщенную информацию в коротких постах, могли раскрыть свои реальные личности, предоставив такие данные, как возраст, город проживания, род занятий и т. д., с высокой степенью достоверности. Это не сработало бы для каждой учетной записи, и это не то, что не смог бы сделать частный детектив (или даже усердный любитель)… но автоматизация и масштаб ошеломляют.

Pexels
Особенно показательным стал пример 10-минутного анонимного опроса, проведенного исследователем из Anthropic в составе команды. Семь процентов из 125 пользователей удалось идентифицировать по отдельности на основе их текстовых ответов на вопросы, с экстраполяцией таких данных, как их род занятий («Я работаю в биологии, занимаюсь исследованиями»), образование, конкретные инструменты и даже тип английского языка, который они использовали в своем ответе (например, британское написание слова «analysing»).
Результаты исследования не подтверждают, что любого пользователя на любом сайте можно отследить по его анонимной активности. Чем больше личной информации вы раскрываете, даже если она кажется общей, тем более вы уязвимы — и это не новость. Пользователи «доксили» друг друга с самых ранних дней существования веба и даже раньше, как и следователи правоохранительных органов и другие шпионы.
Но автоматизация этого процесса — создание систем, которые могут сканировать веб и находить достоверные связи между анонимными и неанонимными постами — может создать новую опасность для тех, кто хочет сохранить свою онлайн-активность в тайне. Эпоха социальных сетей в значительной степени вытеснила старые времена «никнеймов», но анонимные сообщества на таких площадках, как Reddit, по-прежнему важны, особенно для тех, кто принадлежит к уязвимым или целевым группам. Как говорится в статье: «Деанонимизация — это один из многих способов, которым LLM расширяют возможности как преступников, так и государственных структур».
Как сообщает Ars Technica, исследователи предложили способы снизить личный риск. Такие платформы, как Reddit, могут вводить более строгие ограничения на доступ LLM к API для личных данных, а поставщики «ИИ» могут отслеживать активность, чтобы попытаться обнаружить тех, кто использует их для попытки массовой кампании по деанонимизации.
Но самый простой и надежный способ предотвратить привязку ваших личных данных к анонимному аккаунту — это, естественно, убедиться, что эти данные никогда не публикуются в сети.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Michael Crider




