Инсайдер Facebook* создает модерацию контента для эпохи ИИ

Moonbounce ии модерация безопасность Llm финансирование techcrunch.com

Moonbounce привлекла $12 млн для развития своего управляющего движка ИИ, который преобразует политики модерации контента в последовательное, предсказуемое поведение ИИ. — techcrunch.com

Он быстро понял, что проблема глубже, чем просто технологии. По его словам, от модераторов требовалось запомнить 40-страничный документ о правилах, который был переведен на их язык машинным переводом. Затем у них было около 30 секунд на каждый помеченный материал, чтобы решить не только нарушает ли этот контент правила, но и что с ним делать: заблокировать, забанить пользователя, ограничить распространение. Точность этих быстрых решений составляла лишь «немногим более 50%», по словам Левенсона.

«Это было сродни подбрасыванию монеты — смогут ли модераторы правильно применить правила, и это происходило уже через много дней после того, как вред уже был нанесен», — рассказал Левенсон TechCrunch.

Такой отложенный, реактивный подход неустойчив в мире проворных и хорошо финансируемых противодействующих сторон. Рост числа чат-ботов с искусственным интеллектом только усугубил проблему, поскольку сбои в модерации контента привели к череде громких инцидентов, например, когда чат-боты давали подросткам рекомендации по самоповреждению или изображения, сгенерированные ИИ, обходили фильтры безопасности.

Фрустрация Левенсона привела к идее «политика как код» — способу превращения статических документов о политике в исполняемую, обновляемую логику, тесно связанную с принудительным исполнением. Это озарение привело к основанию Moonbounce, которая, как эксклюзивно узнал TechCrunch, в пятницу объявила о привлечении 12 миллионов долларов финансирования. Раунд совместно возглавили Amplify Partners и StepStone Group.

Moonbounce работает с компаниями, предоставляя дополнительный уровень безопасности везде, где генерируется контент, будь то пользователем или ИИ. Компания обучила собственную большую языковую модель для анализа документов о политике клиента, оценки контента в режиме реального времени, предоставления ответа за 300 миллисекунд или меньше и принятия мер. В зависимости от предпочтений клиента, эти меры могут заключаться в том, что система Moonbounce замедляет распространение, пока контент ожидает последующего рассмотрения человеком, или же она может блокировать контент с высоким риском немедленно.

Сегодня Moonbounce обслуживает три основных направления: платформы, работающие с пользовательским контентом, такие как приложения для знакомств; компании, занимающиеся ИИ, создающие персонажей или компаньонов; и генераторы изображений на базе ИИ.

Moonbounce обрабатывает более 40 миллионов ежедневных проверок и обслуживает более 100 миллионов активных пользователей в день на платформе, сообщил Левенсон. Среди клиентов — стартап в области ИИ-компаньонов Channel AI, компания по генерации изображений и видео Civitai, а также платформы ролевых игр Dippy AI и Moescape.

«Безопасность действительно может стать преимуществом продукта», — сказал Левенсон TechCrunch. «Просто раньше этого никогда не было, потому что это всегда что-то, что происходит позже, а не то, что можно встроить в свой продукт. И мы видим, что наши клиенты находят действительно интересные и инновационные способы использования наших технологий, чтобы сделать безопасность отличительной чертой и частью своей продуктовой истории».

Руководитель отдела доверия и безопасности Tinder недавно объяснил, как платформа для знакомств использует подобные сервисы на базе LLM для достижения 10-кратного повышения точности обнаружения.

«Модерация контента всегда была проблемой, преследовавшей крупные онлайн-платформы, но теперь, когда LLM находятся в основе каждого приложения, эта задача стала еще более пугающей», — заявил Ленни Прусс, генеральный партнер Amplify Partners, в своем заявлении. «Мы инвестировали в Moonbounce, потому что представляем мир, где объективные, работающие в реальном времени ограничители станут основой для каждого приложения, опосредованного ИИ».

Компании, занимающиеся ИИ, сталкиваются с растущим юридическим давлением и давлением на репутацию после того, как чат-боты обвинялись в подталкивании подростков и уязвимых пользователей к самоубийству, а генераторы изображений, такие как Grok от xAI, использовались для создания непристойных изображений без согласия. Очевидно, что внутренние механизмы безопасности дают сбой, и это становится вопросом ответственности. Левенсон отметил, что компании, занимающиеся ИИ, все чаще ищут помощи за пределами своих стен для усиления инфраструктуры безопасности.

«Мы являемся третьей стороной, находящейся между пользователем и чат-ботом, поэтому наша система не перегружена контекстом так, как сам чат», — сказал Левенсон. «Сам чат-бот должен помнить, потенциально, десятки тысяч предыдущих токенов… Мы озабочены исключительно принудительным исполнением правил в режиме реального времени».

Левенсон руководит компанией из 12 человек вместе со своим бывшим коллегой по Apple Эшем Бхардваджем, который ранее создавал крупномасштабную облачную инфраструктуру и инфраструктуру ИИ для основных предложений производителя iPhone. Их следующий фокус — функция под названием «итеративное управление», разработанная в ответ на такие случаи, как суицид 14-летнего мальчика из Флориды в 2024 году, который стал одержим чат-ботом Character AI. Вместо грубого отказа при возникновении вредоносных тем система будет перехватывать разговор и перенаправлять его, изменяя запросы в реальном времени, чтобы подтолкнуть чат-бота к более активно поддерживающему ответу.

«Мы надеемся добавить в наш набор действий возможность направлять чат-бот в лучшую сторону, по сути, брать запрос пользователя и изменять его, чтобы заставить чат-бот быть не просто сочувствующим слушателем, но и полезным слушателем в этих ситуациях», — сказал Левенсон.

Когда его спросили, включает ли его стратегия выхода продажу такой компании, как Meta*, что замкнуло бы круг его работы по модерации контента, Левенсон ответил, что он понимает, насколько хорошо Moonbounce впишется в стек его бывшей компании, а также признает свои фидуциарные обязанности как генерального директора.

«Мои инвесторы убьют меня за эти слова, но мне бы не хотелось, чтобы кто-то купил нас, а затем ограничил технологию», — сказал он. «Типа: „Хорошо, теперь это наше, и никто другой не сможет этим воспользоваться“».

Facebook*, Instagram* и WhatsApp* принадлежат компании Meta* Platforms Inc., деятельность которой признана экстремистской и запрещена на территории Российской Федерации.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Похожие новости: