Новости 17:37, 27 мая 2026

Исследователи предложили вводить для языковых моделей фазу «сна» для оптимизации работы с длинным контекстом

Сангюн Ли (Sangyun Lee) из Университета Карнеги — Меллон и Джулия Фанти (Giulia Fanti) из Google DeepMind опубликовали препринт, в котором предлагают механизм «сна» для трансформерных языковых моделей. Он позволяет конвертировать контекст в быстрые веса и очищать кэш ключей и значений, улучшая производительность на задачах с длинным горизонтом планирования.

Исследователи из Университета Карнеги — Меллон и Google DeepMind разработали подход, который имитирует фазу сна у биологических систем для оптимизации работы больших языковых моделей (LLM). Суть метода заключается в периодическом преобразовании недавнего контекста в постоянные быстрые веса с последующей очисткой кэша ключей и значений (KV cache). Это позволяет снизить нагрузку на механизм внимания, который плохо масштабируется при увеличении длины контекста.

В препринте, опубликованном на arXiv, авторы отмечают, что увеличение продолжительности «сна» улучшает производительность моделей, особенно на задачах, требующих глубокого рассуждения. По словам Ли и Фанти, предложенный механизм может стать альтернативой традиционным методам оптимизации работы с длинными последовательностями, таким как разреженное внимание или рекуррентные архитектуры.

Ряд экспертов уже прокомментировали работу. Так, исследователь Андрей Куренков (Andrey Kurenkov) из Стэнфордского университета указал на сходство предложенного подхода с концепцией «обучения во время тестирования» (test-time training), отметив при этом качественный анализ предшествующих работ в препринте. «„Соноподобная консолидация“ — это элегантный способ переформулировать идею, которая уже обсуждалась в сообществе», — написал он в X.

Предложенный метод может найти применение в системах, где языковые модели используются для долгосрочного планирования или анализа больших объёмов данных. Однако пока речь идёт о теоретической разработке — практическая реализация и сравнительные тесты с существующими подходами станут следующим шагом для авторов.

Источники: X-пост Таниша Мэтью Абрахама (Tanishq Mathew Abraham), 26 мая 2026; препринт на arXiv (2605.26099).

Еще новости

Экс-партнёр Greylock Джош Элман переходит в Andreessen Horowitz на позицию по потребительским стартапам

Бывший аспирант Стэнфорда основал стартап Engram для обучения персонализированных ИИ-моделей

Anthropic интегрировала ИИ-ассистента Claude в Slack как полноценного участника команд