Новости 20:37, 3 июля 2026
Поделиться

Создатель SWE-bench призвал ИИ-исследователей отказаться от погоней за новизной

Сооснователь бенчмарка SWE-bench Офир Пресс (Ofir Press) в публичной дискуссии на платформе X заявил, что прогресс в машинном обучении тормозит чрезмерный акцент на инновациях в ущерб простоте и практичности решений. По его словам, индустрия должна пересмотреть приоритеты, чтобы ускорить внедрение технологий.

Офир Пресс, исследователь из Университета Вашингтона и один из создателей бенчмарка SWE-bench для оценки способности моделей решать реальные инженерные задачи, выступил с критикой современных трендов в области машинного обучения. В серии постов на платформе X он утверждает, что научные публикации и разработки всё чаще ориентируются на «модные» архитектуры и сложные подходы, которые не находят применения за пределами академических кругов.

По словам Пресса, ключевая проблема — в несоответствии между исследовательскими приоритетами и потребностями индустрии. «Мы тратим годы на доработку моделей, которые на 0,5% лучше предыдущих, но при этом игнорируем базовые вопросы: как сделать инструменты надёжными, воспроизводимыми и доступными для разработчиков без PhD», — написал он. Пресс подчеркнул, что многие прорывные идеи, такие как трансформеры или диффузионные модели, изначально были простыми и понятными, но со временем усложнились до уровня, когда их внедрение требует значительных ресурсов.

В поддержку тезиса Пресса выступили другие участники дискуссии. Исследователь из DeepMind Пранав Шьям (Pranav Shyam) отметил, что многие компании уже столкнулись с проблемой «технического долга» в ИИ-системах: «Мы создаём модели, которые работают в лаборатории, но ломаются при первом контакте с реальными данными». Доцент Чикагского университета Ченхао Тан (Chenhao Tan) добавил, что простота решений часто коррелирует с их устойчивостью к ошибкам и прозрачностью — качествами, критически важными для бизнеса.

Пресс также призвал сообщество пересмотреть критерии оценки исследований. Вместо того чтобы измерять успех по количеству публикаций в топовых конференциях или по доле улучшения на бенчмарках, он предложил сместить фокус на практические метрики: скорость внедрения, стоимость эксплуатации и отзывы конечных пользователей. В качестве примера он привёл проект SWE-bench, который изначально создавался как инструмент для оценки моделей на реальных задачах GitHub, а не на синтетических датасетах.

Дискуссия развернулась на фоне растущей критики в адрес ИИ-индустрии, где всё чаще звучат обвинения в «гонке вооружений» между крупными лабораториями. Ранее в этом году аналогичные тезисы высказывали представители Google DeepMind и Anthropic, однако Пресс подошёл к вопросу с практической точки зрения, апеллируя к опыту разработчиков и инженеров.

Источники: X-пост Офира Пресса (Ofir Press), 2 июля 2026; комментарии Пранава Шьяма (Pranav Shyam), Ченхао Тана (Chenhao Tan) и других участников дискуссии.