Искать на сайте

Инсайдер Facebook* создает модерацию контента для эпохи ИИ

Rebecca Bellan

03.04.2026

Moonbounce ии модерация безопасность Llm финансирование techcrunch.com

Moonbounce привлекла $12 млн для развития своего управляющего движка ИИ, который преобразует политики модерации контента в последовательное, предсказуемое поведение ИИ. — techcrunch.com

Он быстро понял, что проблема глубже, чем просто технологии. По его словам, от модераторов требовалось запомнить 40-страничный документ о правилах, который был переведен на их язык машинным переводом. Затем у них было около 30 секунд на каждый помеченный материал, чтобы решить не только нарушает ли этот контент правила, но и что с ним делать: заблокировать, забанить пользователя, ограничить распространение. Точность этих быстрых решений составляла лишь «немногим более 50%», по словам Левенсона.

«Это было сродни подбрасыванию монеты — смогут ли модераторы правильно применить правила, и это происходило уже через много дней после того, как вред уже был нанесен», — рассказал Левенсон TechCrunch.

Такой отложенный, реактивный подход неустойчив в мире проворных и хорошо финансируемых противодействующих сторон. Рост числа чат-ботов с искусственным интеллектом только усугубил проблему, поскольку сбои в модерации контента привели к череде громких инцидентов, например, когда чат-боты давали подросткам рекомендации по самоповреждению или изображения, сгенерированные ИИ, обходили фильтры безопасности.

Фрустрация Левенсона привела к идее «политика как код» — способу превращения статических документов о политике в исполняемую, обновляемую логику, тесно связанную с принудительным исполнением. Это озарение привело к основанию Moonbounce, которая, как эксклюзивно узнал TechCrunch, в пятницу объявила о привлечении 12 миллионов долларов финансирования. Раунд совместно возглавили Amplify Partners и StepStone Group.

Moonbounce работает с компаниями, предоставляя дополнительный уровень безопасности везде, где генерируется контент, будь то пользователем или ИИ. Компания обучила собственную большую языковую модель для анализа документов о политике клиента, оценки контента в режиме реального времени, предоставления ответа за 300 миллисекунд или меньше и принятия мер. В зависимости от предпочтений клиента, эти меры могут заключаться в том, что система Moonbounce замедляет распространение, пока контент ожидает последующего рассмотрения человеком, или же она может блокировать контент с высоким риском немедленно.

Сегодня Moonbounce обслуживает три основных направления: платформы, работающие с пользовательским контентом, такие как приложения для знакомств; компании, занимающиеся ИИ, создающие персонажей или компаньонов; и генераторы изображений на базе ИИ.

Moonbounce обрабатывает более 40 миллионов ежедневных проверок и обслуживает более 100 миллионов активных пользователей в день на платформе, сообщил Левенсон. Среди клиентов — стартап в области ИИ-компаньонов Channel AI, компания по генерации изображений и видео Civitai, а также платформы ролевых игр Dippy AI и Moescape.

«Безопасность действительно может стать преимуществом продукта», — сказал Левенсон TechCrunch. «Просто раньше этого никогда не было, потому что это всегда что-то, что происходит позже, а не то, что можно встроить в свой продукт. И мы видим, что наши клиенты находят действительно интересные и инновационные способы использования наших технологий, чтобы сделать безопасность отличительной чертой и частью своей продуктовой истории».

Руководитель отдела доверия и безопасности Tinder недавно объяснил, как платформа для знакомств использует подобные сервисы на базе LLM для достижения 10-кратного повышения точности обнаружения.

«Модерация контента всегда была проблемой, преследовавшей крупные онлайн-платформы, но теперь, когда LLM находятся в основе каждого приложения, эта задача стала еще более пугающей», — заявил Ленни Прусс, генеральный партнер Amplify Partners, в своем заявлении. «Мы инвестировали в Moonbounce, потому что представляем мир, где объективные, работающие в реальном времени ограничители станут основой для каждого приложения, опосредованного ИИ».

Компании, занимающиеся ИИ, сталкиваются с растущим юридическим давлением и давлением на репутацию после того, как чат-боты обвинялись в подталкивании подростков и уязвимых пользователей к самоубийству, а генераторы изображений, такие как Grok от xAI, использовались для создания непристойных изображений без согласия. Очевидно, что внутренние механизмы безопасности дают сбой, и это становится вопросом ответственности. Левенсон отметил, что компании, занимающиеся ИИ, все чаще ищут помощи за пределами своих стен для усиления инфраструктуры безопасности.

«Мы являемся третьей стороной, находящейся между пользователем и чат-ботом, поэтому наша система не перегружена контекстом так, как сам чат», — сказал Левенсон. «Сам чат-бот должен помнить, потенциально, десятки тысяч предыдущих токенов… Мы озабочены исключительно принудительным исполнением правил в режиме реального времени».

Левенсон руководит компанией из 12 человек вместе со своим бывшим коллегой по Apple Эшем Бхардваджем, который ранее создавал крупномасштабную облачную инфраструктуру и инфраструктуру ИИ для основных предложений производителя iPhone. Их следующий фокус — функция под названием «итеративное управление», разработанная в ответ на такие случаи, как суицид 14-летнего мальчика из Флориды в 2024 году, который стал одержим чат-ботом Character AI. Вместо грубого отказа при возникновении вредоносных тем система будет перехватывать разговор и перенаправлять его, изменяя запросы в реальном времени, чтобы подтолкнуть чат-бота к более активно поддерживающему ответу.

«Мы надеемся добавить в наш набор действий возможность направлять чат-бот в лучшую сторону, по сути, брать запрос пользователя и изменять его, чтобы заставить чат-бот быть не просто сочувствующим слушателем, но и полезным слушателем в этих ситуациях», — сказал Левенсон.

Когда его спросили, включает ли его стратегия выхода продажу такой компании, как Meta*, что замкнуло бы круг его работы по модерации контента, Левенсон ответил, что он понимает, насколько хорошо Moonbounce впишется в стек его бывшей компании, а также признает свои фидуциарные обязанности как генерального директора.

«Мои инвесторы убьют меня за эти слова, но мне бы не хотелось, чтобы кто-то купил нас, а затем ограничил технологию», — сказал он. «Типа: „Хорошо, теперь это наше, и никто другой не сможет этим воспользоваться“».

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Rebecca Bellan

Оригинал статьи

В тренде:

LLM, moonbounce, techcrunch.com, безопасность, ИИ, модерация, финансирование

Похожие новости:

«Пять глаз» предупреждают ИБ-директоров: пора менять стратегию кибербезопасности под угрозой
23.06.2026
Руководителям по ИБ необходимо пересмотреть стратегии киберрисков из-за растущего использования ИИ злоумышленниками для обхода защиты, предупреждают агентства «Пяти глаз». Эксперты критикуют призыв за его расплывчатость.
OpenAI запускает новую инициативу для поиска и исправления багов в
23.06.2026
OpenAI пытается решить проблемы безопасности в сообществе программного обеспечения с открытым исходным кодом. Проект «Patch the Planet» в партнерстве с Trail of Bits направлен на повышение защищенности проектов.
Интернет-гиганты захватывают рынок AI-здравоохранения: ByteDance, Tencent, JD Health и Ant
23.06.2026
Крупнейшие интернет-компании Китая, включая ByteDance, Tencent, JD Health и Ant Group, инвестируют в здравоохранение с помощью искусственного интеллекта. Они внедряют ИИ для решения структурных проблем медицины, от диагностики до управления цепочками поставок.
GitHub Actions усиливает безопасность checkout для защиты от атак типа
23.06.2026
Обеспокоенный всплеском кибератак в средах разработки, GitHub усилил безопасность actions/checkout для блокировки атак «pwn request», использующих небезопасное применение триггера pull_request_target. Обновление actions/checkout v7 автоматически блокирует рискованные рабочие процессы.