Пароли, созданные LLM, невозможно защитить. Ваш код может быть тому доказательством

Llm пароли безопасность ии Csprng утечка секретов csoonline.com

Две независимые программы, от Irregular и «Лаборатории Касперского», пришли к выводу: LLM генерируют предсказуемые пароли, которые стандартные метрики переоценивают. Агенты ИИ внедряют их в инфраструктуру, а сканеры секретов их не видят. — csoonline.com

Две независимые исследовательские программы — одна от фирмы по безопасности ИИ Irregular, другая от «Лаборатории Касперского» — пришли к одному и тому же выводу: каждая передовая большая языковая модель (LLM) генерирует структурно предсказуемые пароли, которые стандартные измерители энтропии катастрофически переоценивают. Агенты по написанию кода на базе ИИ автономно внедряют эти учетные данные в производственную инфраструктуру, а у традиционных сканеров секретов нет механизма для их обнаружения.

Как специалист по безопасности, который потратил немало времени на изучение того, как генеративный ИИ интегрируется в корпоративные рабочие процессы разработки, я признаю, что количественная оценка того, что я уже подозревал, все же заставила меня задуматься. Irregular, фирма по оценке безопасности ИИ, инициировала 50 независимых сессий генерации паролей с помощью Claude Opus 4.6. Из этих 50 попыток появилось всего 30 различных строк. Одна конкретная последовательность, G7$kL9#mQ2&xP4!w, повторялась 18 раз, что составляет 36 процентов повторений. При действительно равномерном распределении по 94-символьному печатному алфавиту ASCII вероятность появления любой конкретной 16-символьной последовательности даже дважды за 50 выборок стремится к исчезающе малой. Модель не генерирует пароли; она их извлекает.

Это различие является сутью возникающего и недооцененного класса угроз. Пароли, сгенерированные LLM, удовлетворяют всем поверхностным эвристикам, которые мы привили специалистам для применения: требуемая длина, гетерогенность регистров, примесь цифр и символов, отсутствие узнаваемых фрагментов словаря. Автоматизированные проверки последовательно оценивают их как превосходные. Опасность заключается не в том, как они выглядят для инструментов, разработанных для другой модели угроз; а в том, как они работают против противника, понимающего особенности распределения авторегрессионной генерации.

Архитектурная несовместимость

Корневая патология является архитектурной, а не конфигурационной, что имеет существенное практическое значение, поскольку исключает возможность исправления путем тонкой настройки. Криптографически стойкий генератор псевдослучайных чисел (CSPRNG), предписанный NIST SP 800-90A Rev. 1 для всей генерации энтропии, чувствительной к безопасности, производит каждый символ с равной статистической вероятностью, извлеченной из истинно равномерного распределения. Ни один символ не имеет предпочтительного веса. Позиционный перекос отсутствует. Каждый токен независим от всех предшествующих токенов.

Большие языковые модели работают на фундаментально противоположном принципе. Они обучены присваивать максимальную вероятность наиболее правдоподобному последующему токену, учитывая накопленный контекст, — механизм, который одновременно является источником их замечательной генеративной беглости и их категориальной непригодности для криптографических приложений. При запросе на создание пароля LLM опирается на свои внутренние распределительные знания о том, как обычно выглядят пароли, созданные человеком: преобладание заглавной буквы в начале, скопление цифр в срединных позициях, склонность к терминальным восклицательным знакам. Это не аберрации; это верное выражение статистики обучающего корпуса.

Исследование Irregular количественно определяет этот разрыв, используя энтропию Шеннона, примененную к наблюдаемым распределениям частоты символов в генеративных корпусах. 16-символьный пароль, извлеченный из подлинного CSPRNG по всему 94-символьному набору ASCII, несет около 98 бит энтропии по этой мере. Claude Opus 4.6 достигает примерно 27 бит, что составляет дефицит около 72 процентов по сравнению с криптографическим базисом. 20-символьные пароли GPT-5.2, оцененные с помощью метода логарифмической вероятности, демонстрируют энтропию ближе к 20 битам. Общепринятые оценщики стойкости, включая широко используемую библиотеку zxcvbn, характеризуют те же пароли как имеющие 98–100 бит. Расхождение не маргинально; оно составляет почти на порядок.

Температура — не средство исправления

Рефлексивное возражение со стороны специалистов, знакомых с конфигурацией LLM, заключается в том, что увеличение температуры выборки ослабило бы эти распределительные смещения, сглаживая ландшафт вероятностей, из которого выбираются символы. Эмпирические результаты Irregular недвусмысленно опровергают эту интуицию. Тестирование, проведенное при температуре 1.0, максимальной настройке для Claude, не дает статистически значимого улучшения эффективной энтропии. Смещения по позициям символов закодированы в весах модели, а не в параметрах выборки, и модуляция температуры действует ниже этих распределений, инстанцированных весами.

Отдельно, ведущий специалист по науке о данных «Лаборатории Касперского» Алексей Антонов провел дополнительное исследование, проанализировав 1000 паролей, сгенерированных ChatGPT, Llama от Meta* и DeepSeek. Гистограммы частоты символов выявили выраженную неравномерность во всех трех моделях: ChatGPT демонстрирует систематическое предпочтение символам x, p и L; Llama — символу хеша (#) и букве p; DeepSeek — t и w. При температуре 0.0 Claude при каждом вызове выдает одну и ту же строку. Эти результаты согласуются в разных семействах моделей и методологиях измерения, подтверждая структурный, а не случайный характер уязвимости.

Практическим следствием является то, что противнику, определившему LLM, использованную для генерации целевого учетного набора, не нужно пытаться исчерпывающим перебором взломать пространство ключей 94^16. Он может создать модель-специфичный словарь атак, упорядочив кандидатов по их эмпирической частоте генерации, и выполнить вероятностно оптимизированный поиск по пространству ключей, которое на несколько порядков меньше. Тесты на взлом, проведенные «Лабораторией Касперского», показали, что 88 процентов паролей DeepSeek и 87 процентов паролей Llama не выдержали целенаправленной атаки, как и 33 процента паролей ChatGPT, и все это с использованием стандартного оборудования GPU.

Проблема агентурного внедрения

Часть этой проблемы, поддающаяся обучению пользователей — консультирование специалистов не запрашивать пароли у диалоговых интерфейсов ИИ, — составляет лишь долю общей экспозиции. Более значимым и значительно менее поддающимся контролю вектором является автономная генерация учетных данных агентами по написанию кода, встроенными в профессиональные цепочки инструментов разработки.

Когда агент по написанию кода, такой как GitHub Copilot, Claude Code или аналогичный инструмент, получает спецификацию задачи, включающую инициализацию базы данных, контейнеризацию сервисов или начальную настройку API, он генерирует учетные данные как функциональное условие завершения задачи. Явное указание на необходимость создания пароля не требуется; агент выводит необходимость из контекста. Полученный набор учетных данных внедряется в переменную среды Docker Compose, конфигурационный файл .env или манифест секрета Kubernetes и фиксируется в системе контроля версий разработчиком, чьи ресурсы внимания направлены на функциональную корректность, а не на происхождение учетных данных.

Список OWASP Top 10 для приложений LLM 2025 года определяет небезопасную обработку вывода как критическую категорию риска, которая охватывает именно этот сбойный режим, при котором контент, сгенерированный LLM, потребляется без надлежащей проверки нижестоящими системами и процессами. Введенный таким образом набор учетных данных не помечается Gitleaks или Trufflehog, поскольку эти инструменты используют сопоставление с образцом по известным форматам секретов и не имеют возможности оценить распределение энтропии по позициям символов, которое отличает учетные данные, полученные из CSPRNG, от полученных из LLM.

Приоритеты организационного реагирования

Ландшафт мер по исправлению ситуации управляем для организаций, готовых действовать методично. Следующие приоритеты упорядочены по срочности снижения рисков.

Провести ретроспективный аудит всех репозиториев с использованием ИИ, начиная с начала 2023 года, когда агентурные инструменты кодирования получили широкое распространение на предприятиях. Особое внимание следует уделить конфигурационным файлам, Docker Compose YAML и записям .env. Учетные данные, демонстрирующие характерные для LLM распределительные сигнатуры — последовательное заглавное начало, скопление цифр в середине, терминальные специальные символы — заслуживают расследования независимо от их кажущейся сложности.

Сменить все учетные данные, происхождение которых невозможно однозначно проследить до вызова CSPRNG. Каноническими интерфейсами CSPRNG являются Python’s secrets.token_urlsafe(), openssl rand -base64, /dev/urandom — это единственные приемлемые источники. Аудиторский след, устанавливающий происхождение, имеет операционную ценность; при отсутствии такого следа следует исходить из необходимости смены.

Изменить системные промпты инструментов по написанию кода на ИИ и руководящие принципы безопасной разработки, чтобы предписать явный вызов CSPRNG для всей генерации учетных данных. Инструкция должна быть категоричной: агент не генерирует строки паролей; он вызывает соответствующую функцию платформы. Эта поправка к политике, состоящая из одного предложения, последовательно применяемая, предотвращает класс агентурного внедрения в точке его возникновения.

Дополнить статическое сканирование секретов анализом с учетом энтропии, способным оценивать распределения по позициям символов, а не просто сопоставлять образцы с известными форматами. Этот пробел в возможностях в настоящее время является центральной технической проблемой в операционализации обнаружения для данного класса угроз.

Эскалировать проблему до поставщиков LLM через каналы корпоративных соглашений. Архитектурное исправление, заключающееся в маршрутизации запросов на генерацию паролей к бэкенду CSPRNG вместо их обработки через конвейер авторегрессионной генерации, является инженерным решением, доступным поставщикам ИИ. NIST SP 800-63B Ревизия 4, выпущенная в августе 2025 года, устанавливает недвусмысленные указания по требованиям к энтропии для учетных данных аутентификации. Ответственность поставщика за соблюдение этого стандарта является законным договорным ожиданием.

Более широкая эпистемологическая проблема

Феномен паролей, генерируемых LLM, который теперь в дискуссиях в сообществе безопасности называют «vibe passwords» (пароли по «ощущению»), — это конкретная инстанция более широкой эпистемологической проблемы, которая будет возникать по мере того, как контент, генерируемый ИИ, будет все глубже переплетаться с инфраструктурой, чувствительной к безопасности. Цель обучения, которая делает большие языковые модели чрезвычайно способными производить контекстуально уместные, гуманистически правдоподобные результаты, структурно несовместима с математическими требованиями криптографической безопасности, которые требуют подлинной непредсказуемости именно там, где шаблон и правдоподобие не дают опоры.

Диагностические инструменты и пути исправления существуют. Сообществу безопасности требуется, с некоторой срочностью, систематическое осознание того, что проблема уже распространилась на производственные среды в масштабе, который требует немедленного и целенаправленного организационного реагирования, а не упреждающей политики, а ретроспективного расследования.

Эта статья публикуется в рамках сети экспертных авторов Foundry.
Хотите присоединиться?

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: