Обнаружение утечек конфиденциальных данных в исходном коде: подход Ziyu Wang на основе машинного обучения для защиты современных сред разработки

Ml кибербезопасность утечки кода Devops Pii techtimes.com

Учитывая роль США как мирового технологического лидера и объекта кибератак, упреждающее обнаружение утечек кода — вопрос нацбезопасности. Цзыюй Ван, эксперт по кибербезопасности и ML, решает эту проблему. — techtimes.com

Широкое внедрение программного обеспечения с открытым исходным кодом и корпоративного ПО ускорило темпы разработки, но одновременно расширило поверхность атаки. Среди наиболее острых проблем — непреднамеренное раскрытие конфиденциальных данных в исходном коде, включая жестко закодированные учетные данные, персонально идентифицируемую информацию (PII) и неправильно настроенные токены доступа. Эти утечки часто остаются незамеченными до тех пор, пока не приведут к нарушениям соответствия требованиям или инцидентам безопасности.

В Соединенных Штатах ставки особенно высоки. Федеральные агентства, подрядчики Министерства обороны, поставщики медицинских услуг и финансовые учреждения зависят от такого программного обеспечения для выполнения критически важных операций. Одна утечка учетных данных или записи PII может поставить под угрозу национальную безопасность, нарушить работу критической инфраструктуры или способствовать крупномасштабному финансовому мошенничеству.

Более того, законы США о защите данных — такие как HIPAA, GLBA и Закон о федеральном управлении информационной безопасностью (FISMA) — предусматривают строгие штрафы за несоблюдение требований, что делает необнаруженные утечки не только операционно вредными, но и юридически затратными. Учитывая роль страны как мирового технологического лидера и постоянного объекта кибератак, упреждающее обнаружение и устранение утечек исходного кода является вопросом национальных интересов.

Цзыюй Ван, старший специалист по данным с глубокой экспертизой в области кибербезопасности и машинного обучения, решает эту проблему с помощью практического, основанного на данных подхода. Он поделился с нами своим решением, и в этой статье мы рассмотрим его вклад в четкой последовательности:

  1. Ключевые результаты исследований – Освещение методологии моделей машинного обучения, разработанных Ваном для обнаружения утечек конфиденциальных данных в исходном коде.
  2. Практическое применение – Демонстрация того, как эти модели используются в инфраструктуре и инструментарии разработки программного обеспечения.
  3. Решение критических проблем – Устранение недостатков традиционных инструментов безопасности, таких как генерация слишком большого количества ложных срабатываний и отсутствие достаточного контекста для понимания или приоритизации рисков.
  4. Влияние на реальный мир – Представление стратегических планов того, как организации могут воспроизвести эти результаты и улучшения в рабочих процессах разработчиков, готовности к соблюдению нормативных требований и инициативах по национальной безопасности.

Работая в транснациональной технологической корпорации, Ван руководил разработкой и внедрением масштабируемых фреймворков машинного обучения для обнаружения утечек конфиденциальных данных в исходном коде. Его подход сочетает деревья абстрактного синтаксиса, графовые нейронные сети, оценку энтропии и обратную связь от пользователей для выявления рисков, которые упускают из виду традиционные инструменты. Встраивая обнаружение утечек на основе ML непосредственно в конвейеры разработки и постоянно совершенствуя его на основе реального опыта, его решение улучшает результаты безопасности, одновременно обеспечивая безопасную разработку в масштабе.

Утечка конфиденциальных данных в исходном коде стала повторяющейся проблемой в различных отраслях, и статистика показывает, что ситуация ухудшается. Только в 2024 году GitHub обнаружил более 39 миллионов раскрытых секретов, что на 67% больше по сравнению с предыдущим годом; среди наиболее распространенных — ключи API, учетные данные баз данных и токены доступа к облаку, согласно данным GitHub за 2024 год.

Отчет GitGuardian «State of Secrets Sprawl 2025» показал, что 4,6% общедоступных репозиториев и 35% частных репозиториев содержат хотя бы один секрет, и тревожно то, что 70% секретов, раскрытых в 2022 году, оставались активными в 2024 году. Эти утечки — часто жестко закодированные учетные данные, персонально идентифицируемая информация (PII) или небезопасные конфигурации — часто возникают в ходе быстро меняющихся циклов разработки и остаются скрытыми до тех пор, пока злоумышленники их не используют, что способствует 22% утечек данных в 2024 году, вызванных скомпрометированными учетными данными, согласно Отчету об анализе нарушений данных Verizon.

Эти инциденты обусловлены не только недосмотром разработчиков, но и системными слабостями традиционных инструментов обнаружения, которые часто полагаются на регулярные выражения или статическое сопоставление правил, неспособное уловить сложные, контекстно-зависимые шаблоны. Работа Вана направлена на устранение этих пробелов в обнаружении.

Решение Цзыюя Вана сосредоточено на создании интеллектуальных инструментов безопасности, которые бесшовно интегрируются в современные конвейеры разработки ПО. Его подход использует комбинацию семантического анализа кода, поведенческого моделирования и обучения на основе графов. По словам Вана, ключ к масштабируемому обнаружению заключается в разработке систем, которые со временем учатся на контексте кода, привычках разработчиков и архитектурных шаблонах.

«Традиционные сканеры рассматривают код как плоский текст, но исходный код структурирован, логичен и контекстуален. Наши модели призваны уловить эту структуру», — объясняет Ван.

Он выделил три постоянные проблемные области в безопасности исходного кода:

  1. Неспособность статических инструментов обнаруживать неочевидные секреты или обфусцированные строки
  2. Ложные срабатывания, подрывающие доверие разработчиков к оповещениям о безопасности
  3. Фрагментированная интеграция инструментов безопасности в конвейеры DevOps

Фреймворк машинного обучения Вана был создан для смягчения этих проблем посредством автоматизации, адаптивности и осведомленности о контексте.

Технический фреймворк Вана для обнаружения утечек выводит машинное обучение в самое сердце безопасной разработки программного обеспечения. Его система объединяет следующие четыре ключевые возможности в единый конвейер аудита:

  • Семантический разбор на основе AST для отслеживания того, как объявляются, используются и передаются переменные
  • Графовые нейронные сети (GNN) для моделирования потока данных между функциями и сервисами
  • Оценка на основе энтропии для выявления подозрительных строк с высокой энтропией, таких как токены и ключи API
  • Циклы обратной связи, которые позволяют модели обучаться на решениях разработчиков и сокращать количество ложных срабатываний

«Код — это не просто текст, это структура, отношения и намерение», — отмечает Ван. «Наши модели обучаются понимать, как секреты перемещаются по этой структуре, а не только где они появляются».

Сочетая эти методы, система Вана устраняет общие недостатки традиционных статических инструментов и постоянно развивается на основе реального использования.

Исследования Вана были развернуты в реальных сложных корпоративных средах, особенно в секторах, где критически важны соответствие программного обеспечения требованиям и защита данных.

Его система — это не просто теоретическая модель; она активно развернута в сложных программных инфраструктурах, предлагая масштабируемые и удобные для разработчиков решения современных проблем безопасности. Одним из наиболее заметных применений является расширение возможностей разработчиков (developer enablement).

Инструменты Вана интегрированы непосредственно в IDE, где они предоставляют предложения в реальном времени и рекомендации по рефакторингу. Это не только улучшает практики безопасного кодирования, но и уменьшает узкие места во время проверки кода, особенно в командах, управляющих крупномасштабными микросервисами.

Практические преимущества подхода Вана очевидны. Команды, использующие его систему, сообщают о повышении доверия разработчиков благодаря сокращению ложных срабатываний и масштабируемости, которая поддерживает тысячи репозиториев без проблем с производительностью.

Эти общеотраслевые проблемы — доверие, масштаб и соответствие требованиям — решаются благодаря продуманной конструкции его фреймворка машинного обучения. Сохраняя систему прозрачной и отзывчивой к обратной связи от разработчиков, Ван продемонстрировал, что инструменты безопасности могут быть точными, не становясь препятствием для продуктивности.

Для организаций, стремящихся воспроизвести эти результаты, исследования Вана предлагают четкую стратегическую дорожную карту:

  • Раннее встраивание обнаружения с использованием Git-хуков или плагинов IDE для выявления проблем до их попадания в систему контроля версий
  • Интеграция обратной связи от разработчиков, чтобы модели могли развиваться и сокращать количество ложных оповещений
  • Регулярный аудит конфигурационных файлов, таких как YAML, JSON и .env, которые являются частыми источниками утечек
  • Использование моделирования контекста на основе графов для улавливания взаимосвязей, которые часто упускают статические инструменты
  • Постоянное сканирование устаревших кодовых баз, где с наибольшей вероятностью скрываются секреты

Сосредоточившись на раннем вмешательстве, контекстном понимании и непрерывном обучении, работа Вана предоставляет план для создания интеллектуальных, масштабируемых и ориентированных на разработчика систем безопасности в реальном мире.

Ван давно осознал, что даже самые передовые системы обнаружения утечек имеют ограничения, и он активно устраняет эти пробелы. Текущие исследования Вана сосредоточены на более тонком обнаружении утечек с использованием больших языковых моделей (LLM), которые могут понимать намерения из комментариев и документации на естественном языке. В сочетании с анализом кода это может дополнительно уточнить прогнозы утечек.

«Безопасность должна быть проактивной и предиктивной», — заявляет Ван. «Машинное обучение позволяет нам делать и то, и другое, не замедляя работу команд».

Фреймворк машинного обучения Цзыюя Вана для обнаружения утечек конфиденциальных данных в исходном коде представляет собой значительный шаг вперед в области безопасной разработки программного обеспечения. Понимая код в контексте, адаптируясь к поведению разработчиков и масштабируясь в конвейерах, его работа предлагает план того, как интеллектуальные инструменты могут решать критические проблемы безопасности.

Поскольку организации сталкиваются с растущими требованиями к соблюдению нормативных требований и эскалацией киберугроз, возможность проактивно — и интеллектуально — проводить аудит кода больше не является выбором. Вклад Вана не только обеспечивает немедленную ценность, но и закладывает основу для создания более устойчивых, самосовершенствующихся систем безопасности в будущем.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: