Ваши избирательные данные могут быть использованы против вас. Иностранная разведывательная служба, желающая идентифицировать членов семей военнослужащих, находящихся на службе, могла бы сделать это путем сопоставления общедоступных данных избирательных списков с публикациями в социальных сетях.
Работодатель, который хочет нанимать сотрудников только с определенной политической принадлежностью, мог бы сделать это, анализируя историю участия в праймериз соискателей.
Группа мошенников, занимающаяся кражей личных данных с целью открытия кредитных счетов на имена других людей, могла бы выявить избирателей, чья почта была возвращена (через индикаторы приостановки в файле избирателей), чтобы завладеть этими адресами с помощью поддельных запросов на смену адреса.
Эти сценарии возможны благодаря способности связывать общедоступные данные избирателей с другими наборами данных, по словам Ноа М. Кенни, основателя консалтинговой компании Digital 520.
“Я выбрал два разных округа, которые представляли собой противоположные концы спектра”, — рассказал Кенни в телефонном интервью The Register.
“В Техасе они скрывают много информации, а Северная Каролина делает многое из этого общедоступным в виде конкретных записей. И я конкретно смотрел, насколько вероятно повторно идентифицировать человека, если вы возьмете этот набор данных и объедините его с другими наборами данных?”
Более 25 лет назад исследование Латаньи Суини, ныне профессора Гарварда, показало, что большую часть населения США (87 процентов) можно идентифицировать всего по трем анонимным данным — пятизначному почтовому индексу, полу и дате рождения.
Эти результаты могут быть улучшены при объединении с другими наборами данных. А недавние исследования показали, что процесс идентификации людей по, казалось бы, анонимным данным становится еще проще с помощью инструментов ИИ.
В научной работе под названием “Public Voting Records: A Record, or an Attack Surface?” (“Публичные избирательные записи: запись или поверхность для атаки?”) Кенни описывает, как он анализировал публичные записи из округа Трэвис, штат Техас, и округа Робсон, штат Северная Каролина, чтобы показать, что вышеупомянутые враждебные сценарии осуществимы с использованием общедоступных данных.
Файл Техаса предоставляет меньше точек данных, чем файл Северной Каролины, но исследование предполагает, что ретуширование не имеет большого значения в оцененных сценариях повторной идентификации.
TX
| NC | ||
|---|---|---|
| Полное имя | Да | Да |
| Адрес проживания | Да | Да |
| Пол | Заполнение 90% | 100% |
| Дата рождения | Нет | Только год |
| Раса / этническая принадлежность | Нет | Да |
| Номер телефона | Нет | Заполнение 61% |
| Регистрация в партии | Выводится | Заявлено |
| История голосования за 30+ лет | Да | Ограниченно |
| Записи Программы конфиденциальности адресов (ACP) | Коды приостановки | Предварительно отфильтровано |
Используя менее подробную информацию из Техаса, Кенни смог применить скрипт Python для сопоставления избирательных записей с другими общедоступными записями, такими как данные об индивидуальных пожертвованиях Федеральной избирательной комиссии (FEC).
“Мы извлекли 500 записей о пожертвованиях для почтового индекса 78704 (почтовый индекс в центре Остина, включающий районы Саут-Конгресс и Трэвис-Хайтс) за цикл 2024 года через FEC OpenAPI 1 мая 2026 года”, — объясняет он в своей работе.
“Мы устранили дубликаты до 181 уникального донора по точному совпадению (фамилия, имя, почтовый индекс) и выполнили внутреннее соединение с файлом избирателей по тому же ключу, без нечеткого сопоставления, без нормализации прозвищ, без обработки суффиксов. Из 181 донора 105 (58,01 процента) совпали с какой-либо избирательной записью, и 95 (52,49 процента) совпали с однозначно идентифицируемым избирателем. Из 105 совпадений у 74,3 процента было поле работодателя, отличное от тривиального, в FEC”.
По словам Кенни, этот показатель совпадения отдельных лиц в 52 процента при идентификации людей по избирательным спискам и данным FEC был бы ближе к 90–95 процентам при использовании инструментов, применяемых коммерческими брокерами данных.
Набор данных избирателей Северной Каролины включает номер телефона для большинства избирателей. Согласно отчету, 88,53 процента избирателей, у которых указан номер телефона, имеют номер, уникальный в пределах округа. В результате внешние наборы данных, содержащие номера телефонов, могут быть объединены с аналогичной скоростью, используя это поле в качестве ключа для сужения круга и идентификации вероятных лиц.
Среди других выводов доклада:
- Имя и почтовый индекс однозначно идентифицируют 95,81 процента избирателей Техаса и 87,79 процента избирателей Северной Каролины.
- Среди избирателей округа Трэвис, голосовавших на 20 или более выборах, 98,4 процента имеют уникальный для них паттерн явки, что делает эту точку данных отпечатком пальца.
- Ретуширование даты рождения в Техасе в качестве меры конфиденциальности подрывается публикацией данных о регистрации избирателей, что позволяет однозначно идентифицировать 28 процентов избирателей при объединении с почтовым индексом и полом.
- Файл избирателей округа Трэвис в настоящее время раскрывает 320 семей военнослужащих, находящихся на службе, посредством публикации кодов APO/FPO для военной почты.
В настоящее время не существует всеобъемлющего федерального закона о конфиденциальности. Хотя многие штаты имеют правила конфиденциальности, существует большая вариативность.
“Даже в пределах конкретного штата большинство округов индивидуально обрабатывают эти запросы на публичные записи, поэтому они обрабатывают их по-разному по всей стране”, — сказал Кенни.
“Некоторые из них вы не можете получить. Для некоторых вам нужно удостоверение личности. Некоторые из них требуют, чтобы вы прошли процесс запроса на публичные записи, или вам нужно за них заплатить. Оба округа, которые я использовал, являются общедоступными. Вы можете зайти и скачать их zip-архивы, даже не указав адрес электронной почты или свое имя, из любой точки мира”.
Кенни заявил, что считает, что меры контроля доступа являются лучшим решением, чем ретуширование определенных полей данных, ссылаясь на свои выводы о том, что ретуширование не обязательно защищает от нарушений конфиденциальности. Он рекомендует такие меры, как ограничение частоты массовых запросов файлов, проверка личности, требование удостоверения личности штата, ведение журналов аудита запросов и запрет коммерческой перепродажи этих записей — поскольку они часто используются брокерами данных.
Помимо конкретных исправлений, основанных на его выводах — Техасу следует обобщать даты регистрации избирателей до года, а не до дня, а коды рассылки вооруженных сил следует исключить из списков избирателей — Кенни утверждает, что людям должно быть разрешено отказываться от включения в общедоступные наборы данных, и что общие меры защиты конфиденциальности данных были бы полезны.
На прошлой неделе республиканцы в Палате представителей внесели Закон о защите данных (Secure Data Act) с целью создания федеральных правил конфиденциальности. Но Кенни говорит, что он значительно слабее многих государственных норм, и он не ожидает, что он будет принят.
“Консенсус в отрасли заключается в том, что вероятность его принятия крайне мала, по крайней мере, в его нынешнем виде”, — сказал он. “Это третья попытка принять всеобъемлющий закон о конфиденциальности данных за последние годы, последней из которых был Американский закон о защите данных и неприкосновенности частной жизни (American Data Privacy and Protection Act), который не прошел”. ®
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Thomas Claburn




