Новости: обучение с подкреплением
Patronus AI привлекла 50 млн долларов на создание цифровых миров для стресс-тестирования AI-агентов
Стартап Patronus AI, основанный бывшими исследователями Meta* AI, испытывает почти ненасытный спрос на свои услуги по тестированию агентов, по словам его инвестора. Компания создает цифровые симуляции для оценки надежности ИИ-агентов.

Ineffable Intelligence заключила сделку с Google Cloud для получения мощностей GPU Vera Rubin
Лондонский разработчик «анти-LLM», возглавляемый основателем AlphaGo Дэвидом Сильвером, выбрал инфраструктуру GPU Vera Rubin от Google Cloud для создания «суперобучающихся» механизмов на основе обучения с подкреплением. — computerweekly.com

Два лауреата премии Тьюринга встретились на конференции в Пекине, чтобы бросить вызов «теоретической черной дыре» в развитии AGI
Уитфилд Диффи и Эндрю Барто, два лауреата премии Тьюринга, выступили с программными речами на 8-й Пекинской конференции Чжиюань, совместно раскрыв фундаментальные теоретические проблемы, стоящие перед общим искусственным интеллектом. — pandaily.com

Evolving-RL от Xiaohongshu: новая парадигма саморазвивающихся навыков ИИ-агентов
Исследователи из Xiaohongshu (RED) опубликовали Evolving-RL — новый фреймворк обучения с подкреплением, позволяющий ИИ-агентам автономно развивать навыки на основе опыта без раздельных модулей для извлечения и выполнения. — pandaily.com

ACL 2026: I2B-LPO от Alibaba DAMO Academy порывает с гомогенизацией RLVR — от «repetitive sampling» к эффективному исследованию
Фреймворк I2B-LPO от Alibaba DAMO Academy, принятый на ACL 2026 Main, повышает точность математических рассуждений до 5,3% и семантическое разнообразие до 7,4% путем направления моделей на генерацию более разнообразных траекторий рассуждений. — pandaily.com

LaST-R1: новый прорыв в физическом мышлении ИИ с точностью 99,9% в бенчмарке LIBERO
Совместное исследование Zojian Power, Пекинского университета и CUHK представляет LaST-R1 — новую парадигму воплощенного ИИ, достигающую 99,9% успеха на бенчмарке LIBERO — на 22,5% выше, чем π0.5 в реальных задачах. — pandaily.com

Tencent открыла исходный код фреймворка обучения с подкреплением WorldCompass на основе “World Model”
Команда Tencent Hunyuan открыла исходный код WorldCompass — фреймворка постобучения с подкреплением для моделей мира, который повышает точность выполнения сложных действий на 35 процентных пунктов. — pandaily.com

Самое просматриваемое:
- Bitcoin Depot оштрафован на $18,5 млн – сталкивается…
- WatchGuard бьёт тревогу: критическая уязвимость…
- Как настроить ComfyUI для генерации изображений ИИ…
- ECARX берет управление бизнесом Flyme OS в свои руки…
- США прикрыли платформу для хранения паролей, которой…
- Результаты еженедельного опроса: Samsung Galaxy Z…
- Тим Суини из Epic: «нечестность» и «грубое…
- Исследователи из MIT возродили 40-летнюю концепцию…
- Новейший датчик присутствия от Aqara определяет,…
- Представитель сервисного центра Google сообщил…


