Исследователи из Университета Карнеги — Меллона и Университета Мэриленда опубликовали работу под названием «Языковые модели нуждаются во сне» (Language Models Need Sleep), демонстрирующую, что большие языковые модели получают пользу от периода отдыха, имитирующего паттерны сна человека.
Исследование вдохновлено нейронаукой: во время сна человека гиппокамп воспроизводит кратковременные воспоминания дня, консолидируя их в синапсах коры как долговременные знания. Команда применила этот принцип к БЯМ, разработав механизм «сна» для моментов, когда контекстное окно модели приближается к пределу заполнения.
Вместо того чтобы продолжать обработку новых токенов, модель переходит в офлайн-состояние, выполняя несколько раундов рекурсивного прямого распространения на накопленном контексте. Это позволяет модели сжать недавнюю информацию в свои «быстрые веса» (fast weights), очистить KV-кэш и возобновить обработку с обновленными долговременными знаниями.
Команда протестировала механизм на трех категориях задач: клеточные автоматы, многошаговый поиск по графу и математическое рассуждение GSM-Infinite. Эти задачи позволили точно контролировать переменные глубины рассуждения и нагрузки на память.
Результаты показали, что увеличение раундов итерации «сна» стабильно улучшало производительность, особенно в сложных задачах рассуждения, требующих пошагового вывода. Простые задачи могли быть решены в «бодрствующем» состоянии, но сложные проблемы требовали периода офлайн-консолидации для достижения оптимальных результатов.
В статье отмечается, что узким местом при обработке длинного контекста является не емкость хранения информации, а скорее способность к глубокому рассуждению. Когда историческая информация вытесняется из KV-кэша, у модели остается только один прямой проход для ее усвоения, что недостаточно для сложного логического вывода.
Этот подход дополняет появляющиеся гибридные архитектуры SSM-Attention, такие как Samba и Qwen3.5, которые используют быстрые веса для сжатия более старой информации. Механизм сна решает проблему, которую команда определяет как фундаментальное ограничение современных архитектур на основе трансформеров: неспособность глубоко обработать длинные цепочки рассуждений за один проход.
Статья доступна на arXiv (2605.26099) и вызвала дискуссии о биологически вдохновленных подходах к улучшению возможностей ИИ в области рассуждений.
Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.
Автор – Pandaily




