Новости: обучение с подкреплением

Patronus AI привлекла 50 млн долларов на создание цифровых миров для стресс-тестирования AI-агентов

Стартап Patronus AI, основанный бывшими исследователями Meta* AI, испытывает почти ненасытный спрос на свои услуги по тестированию агентов, по словам его инвестора. Компания создает цифровые симуляции для оценки надежности ИИ-агентов.

ИИ

25.06.2026

Marina Temkin

patronus ai, techcrunch.com, ии-агенты, обучение с подкреплением, симуляция, тестирование

Ineffable Intelligence заключила сделку с Google Cloud для получения мощностей GPU Vera Rubin

Лондонский разработчик «анти-LLM», возглавляемый основателем AlphaGo Дэвидом Сильвером, выбрал инфраструктуру GPU Vera Rubin от Google Cloud для создания «суперобучающихся» механизмов на основе обучения с подкреплением. — computerweekly.com

ИИ

16.06.2026

Antony Adshead

computerweekly.com, Google Cloud, GPU, ИИ, обучение с подкреплением, стартап, суперобучающийся

Два лауреата премии Тьюринга встретились на конференции в Пекине, чтобы бросить вызов «теоретической черной дыре» в развитии AGI

Уитфилд Диффи и Эндрю Барто, два лауреата премии Тьюринга, выступили с программными речами на 8-й Пекинской конференции Чжиюань, совместно раскрыв фундаментальные теоретические проблемы, стоящие перед общим искусственным интеллектом. — pandaily.com

ИИ

13.06.2026

Pandaily

pandaily.com, безопасность, ИИ, криптография, обучение с подкреплением, премия тьюринга

Evolving-RL от Xiaohongshu: новая парадигма саморазвивающихся навыков ИИ-агентов

Исследователи из Xiaohongshu (RED) опубликовали Evolving-RL — новый фреймворк обучения с подкреплением, позволяющий ИИ-агентам автономно развивать навыки на основе опыта без раздельных модулей для извлечения и выполнения. — pandaily.com

ИИ

07.06.2026

Pandaily

evolving-rl, pandaily.com, xiaohongshu, ии-агенты, обучение с подкреплением, саморазвитие

ACL 2026: I2B-LPO от Alibaba DAMO Academy порывает с гомогенизацией RLVR — от «repetitive sampling» к эффективному исследованию

Фреймворк I2B-LPO от Alibaba DAMO Academy, принятый на ACL 2026 Main, повышает точность математических рассуждений до 5,3% и семантическое разнообразие до 7,4% путем направления моделей на генерацию более разнообразных траекторий рассуждений. — pandaily.com

Rlvr I2b-Lpo Acl 2026 обучение с подкреплением модели рассуждений pandaily.com

ИИ

15.05.2026

Pandaily

acl 2026, i2b-lpo, pandaily.com, rlvr, модели рассуждений, обучение с подкреплением

LaST-R1: новый прорыв в физическом мышлении ИИ с точностью 99,9% в бенчмарке LIBERO

Совместное исследование Zojian Power, Пекинского университета и CUHK представляет LaST-R1 — новую парадигму воплощенного ИИ, достигающую 99,9% успеха на бенчмарке LIBERO — на 22,5% выше, чем π0.5 в реальных задачах. — pandaily.com

ИИ

11.05.2026

Pandaily

libero, pandaily.com, воплощенный ии, латентное пространство, обучение с подкреплением, робототехника

Nvidia: ИИ сокращает задачу проектирования GPU с десяти месяцев до одной ночи

Nvidia активно использует ИИ на разных этапах проектирования чипов, хотя и признает, что ИИ еще далек от полной автономной разработки. — tomshardware.com

ИИ

14.04.2026

Anton Shilov

LLM, Nvidia, tomshardware.com, ИИ, обучение с подкреплением, проектирование чипов, разработка

Pony.ai представила PonyWorld 2.0: новая парадигма в сфере «автономного вождения»

PonyWorld 2.0 от Pony.ai позволяет автономным системам проводить самодиагностику и эволюционировать, переопределяя методы обучения ИИ для беспилотного вождения. — pandaily.com

ИИ

13.04.2026

Pandaily

pandaily.com, pony.ai, ponyworld 2.0, автономное вождение, ИИ, обучение с подкреплением

Лаборатория Alibaba Tongyi представила PrismAudio — фреймворк для генерации звука по видео

PrismAudio от Alibaba представляет ИИ с принципом «думай, прежде чем генерировать» для создания идеально синхронизированного звукового окружения из видео. — pandaily.com

ИИ

25.03.2026

Pandaily

pandaily.com, prismaudio, аудио, видео, генерация, ИИ, обучение с подкреплением

Tencent открыла исходный код фреймворка обучения с подкреплением WorldCompass на основе “World Model”

Команда Tencent Hunyuan открыла исходный код WorldCompass — фреймворка постобучения с подкреплением для моделей мира, который повышает точность выполнения сложных действий на 35 процентных пунктов. — pandaily.com

ИИ

10.03.2026

Pandaily

pandaily.com, Tencent, worldcompass, ИИ, модели мира, обучение с подкреплением

Искать на сайте

Новости: обучение с подкреплением

Patronus AI привлекла 50 млн долларов на создание цифровых миров для стресс-тестирования AI-агентов

Ineffable Intelligence заключила сделку с Google Cloud для получения мощностей GPU Vera Rubin

Два лауреата премии Тьюринга встретились на конференции в Пекине, чтобы бросить вызов «теоретической черной дыре» в развитии AGI

Evolving-RL от Xiaohongshu: новая парадигма саморазвивающихся навыков ИИ-агентов

ACL 2026: I2B-LPO от Alibaba DAMO Academy порывает с гомогенизацией RLVR — от «repetitive sampling» к эффективному исследованию

LaST-R1: новый прорыв в физическом мышлении ИИ с точностью 99,9% в бенчмарке LIBERO

Nvidia: ИИ сокращает задачу проектирования GPU с десяти месяцев до одной ночи

Pony.ai представила PonyWorld 2.0: новая парадигма в сфере «автономного вождения»

Лаборатория Alibaba Tongyi представила PrismAudio — фреймворк для генерации звука по видео

Tencent открыла исходный код фреймворка обучения с подкреплением WorldCompass на основе “World Model”

Самое просматриваемое: