Исследовательская организация Epoch AI представила новый бенчмарк EBR-bench, который показал, что существующие языковые модели не улучшают свои результаты при многократном выполнении игровых задач. Тестирование проведено на данных, опубликованных 2 июля 2026 года.
Исследовательская группа Epoch AI разработала бенчмарк EBR-bench (Evaluation of Behavior Repetition), предназначенный для оценки способности языковых моделей адаптироваться и совершенствоваться в процессе повторяющихся игровых взаимодействий. Результаты тестирования продемонстрировали, что современные модели, включая передовые коммерческие решения, не способны к прогрессивному обучению в таких сценариях.
EBR-bench включает набор задач, где модели должны принимать решения в условиях, требующих запоминания предыдущих ходов и корректировки стратегии. Как отмечают авторы исследования, даже при многократном повторении одних и тех же игровых ситуаций модели не демонстрируют значимого улучшения производительности. Это ставит под вопрос их способность к долгосрочному планированию и обучению на основе опыта — ключевым аспектам для создания более автономных систем искусственного интеллекта.
Результаты исследования вызвали обсуждение в профессиональном сообществе. Профессор Уортонской школы бизнеса Итан Моллик (Ethan Mollick) в своём комментарии указал, что «ограничения, выявленные EBR-bench, подчёркивают разрыв между текущими возможностями моделей и требованиями к по-настоящему адаптивному ИИ». При этом часть экспертов отмечает, что бенчмарк фокусируется на узком классе задач, не охватывая все сценарии применения языковых моделей.
Исследование Epoch AI опубликовано в открытом доступе. Авторы призывают разработчиков учитывать выявленные ограничения при проектировании новых архитектур и алгоритмов обучения.
Источники: X-пост Lisan al Gaib, 2 июля 2026; X-пост Итана Моллика (Ethan Mollick), 2 июля 2026; блог Epoch AI.