Новости 18:37, 3 июля 2026

Исследователи Epoch AI выявили неспособность современных ИИ-моделей к адаптации в повторяющихся играх

Исследовательская организация Epoch AI представила новый бенчмарк EBR-bench, который показал, что существующие языковые модели не улучшают свои результаты при многократном выполнении игровых задач. Тестирование проведено на данных, опубликованных 2 июля 2026 года.

Исследовательская группа Epoch AI разработала бенчмарк EBR-bench (Evaluation of Behavior Repetition), предназначенный для оценки способности языковых моделей адаптироваться и совершенствоваться в процессе повторяющихся игровых взаимодействий. Результаты тестирования продемонстрировали, что современные модели, включая передовые коммерческие решения, не способны к прогрессивному обучению в таких сценариях.

EBR-bench включает набор задач, где модели должны принимать решения в условиях, требующих запоминания предыдущих ходов и корректировки стратегии. Как отмечают авторы исследования, даже при многократном повторении одних и тех же игровых ситуаций модели не демонстрируют значимого улучшения производительности. Это ставит под вопрос их способность к долгосрочному планированию и обучению на основе опыта — ключевым аспектам для создания более автономных систем искусственного интеллекта.

Результаты исследования вызвали обсуждение в профессиональном сообществе. Профессор Уортонской школы бизнеса Итан Моллик (Ethan Mollick) в своём комментарии указал, что «ограничения, выявленные EBR-bench, подчёркивают разрыв между текущими возможностями моделей и требованиями к по-настоящему адаптивному ИИ». При этом часть экспертов отмечает, что бенчмарк фокусируется на узком классе задач, не охватывая все сценарии применения языковых моделей.

Исследование Epoch AI опубликовано в открытом доступе. Авторы призывают разработчиков учитывать выявленные ограничения при проектировании новых архитектур и алгоритмов обучения.

Источники: X-пост Lisan al Gaib, 2 июля 2026; X-пост Итана Моллика (Ethan Mollick), 2 июля 2026; блог Epoch AI.

Еще новости

Стартап Listen запустил коммерческое приложение, разработанное автономным ИИ-агентом

Anthropic добавила в Claude функцию генерации интерактивных веб-страниц для платных пользователей

Инвестор предложил называть ИИ-компании «лабораториями», чтобы снизить риск национализации