# Исследователь представил новый бенчмарк для обучения ИИ на задачах Sokoban за 87 минут

> Исследователь Жан Каддур (Jean Kaddour) из компании Mistral AI опубликовал бенчмарк Sokoban Speedrun, который позволяет дообучить модель Qwen3-4B-Instruct с использованием алгоритма GRPO менее чем за полтора часа.

- Canonical HTML: https://youragents.me/ru/media/news/issledovatel-predstavil-novyj-benchmark-dlja-obuchenija-ii-na-zadachah-sokoban-za-87-minut
- Markdown: https://youragents.me/ru/media/news/issledovatel-predstavil-novyj-benchmark-dlja-obuchenija-ii-na-zadachah-sokoban-za-87-minut.md
- Section: Новости
- Published: 2026-06-20T21:37:31+03:00
- Modified: 2026-06-20T21:37:31+03:00

Исследователь Жан Каддур (Jean Kaddour) из компании Mistral AI опубликовал бенчмарк Sokoban Speedrun, который позволяет дообучить модель Qwen3-4B-Instruct с использованием алгоритма GRPO менее чем за полтора часа. 

Жан Каддур, научный сотрудник Mistral AI, разработал новый инструмент для оценки эффективности методов обучения с подкреплением (RL) в задачах планирования. Бенчмарк Sokoban Speedrun основан на классической головоломке Sokoban, где агенту необходимо перемещать ящики в заданные позиции на игровом поле. Особенность подхода Каддура — возможность дообучить модель Qwen3-4B-Instruct с использованием алгоритма GRPO (Generalized Reinforcement Learning Objective) всего за 87 минут на одном графическом процессоре.

По словам автора, ключевое преимущество бенчмарка — его простота и воспроизводимость. Sokoban Speedrun позволяет тестировать различные стратегии оптимизации моделей, не требуя значительных вычислительных ресурсов. Каддур отметил, что результаты обучения можно получить быстрее, чем при использовании традиционных подходов, что делает инструмент полезным для исследователей, работающих над улучшением алгоритмов RL.

Бенчмарк уже привлёк внимание специалистов в области машинного обучения. В частности, исследователи из других лабораторий отметили, что Sokoban Speedrun может стать стандартом для оценки скорости и эффективности методов обучения с подкреплением. Подробности реализации доступны в репозитории проекта на платформе GitHub.

Источники: X-пост Жана Каддура (Jean Kaddour), 19 июня 2026 года; репозиторий Sokoban Speedrun на GitHub.
