Новости 02:37, 11 июня 2026

Создатель OpenAI o1 предложил оценивать производительность ИИ по затратам вычислительных ресурсов на тесты

Научный сотрудник OpenAI и соавтор модели o1 Ноам Браун (Noam Brown) призвал разработчиков бенчмарков учитывать зависимость результатов больших языковых моделей (LLM) от объёма вычислительных мощностей, затрачиваемых на выполнение тестов. Об этом он написал в своём X-посте 9 июня.

Браун, ранее работавший в Meta над созданием алгоритмов для покера с неполной информацией, отметил, что традиционные бенчмарки не отражают реальный потенциал LLM, так как не учитывают возможность моделей тратить дополнительное время на обдумывание ответов. По его словам, такие подходы, как «chain-of-thought» (цепочка рассуждений), позволяют моделям улучшать качество ответов за счёт увеличения вычислительных затрат.

«Если мы хотим понять, на что способны современные модели, бенчмарки должны показывать не только итоговый результат, но и то, как он меняется в зависимости от затраченных ресурсов», — написал Браун. Он предложил визуализировать производительность моделей в виде графиков, где по одной оси откладывается результат теста, а по другой — объём вычислительных мощностей.

Идею поддержал директор по научной работе Microsoft Эрик Хорвиц (Eric Horvitz), который назвал предложение Брауна «важным шагом к более объективной оценке возможностей ИИ». В свою очередь, исследователь из DeepMind Джулиан Шритвизер (Julian Schrittwieser) отметил, что подобные подходы уже используются в некоторых внутренних тестах компании, но пока не стали стандартом в индустрии.

Вопрос о том, как оценивать производительность LLM, остаётся открытым. Традиционные бенчмарки, такие как MMLU или HumanEval, не учитывают возможность моделей тратить дополнительное время на обдумывание, что ограничивает их применимость для оценки более сложных задач.

Источники: X-пост Ноама Брауна (Noam Brown), 9 июня.

Еще новости

Anthropic заблокировала в новой модели запросы по биологии, химии и кибербезопасности

Anthropic снизила производительность Claude 3.5 Sonnet на ключевых задачах с помощью управляющих векторов

Tesla получила разрешение на запуск системы Full Self-Driving Supervised в Дании