Новости 19:00, 15 июня 2026
Поделиться

Новый бенчмарк оценил преимущества масштаба языковых моделей: Claude Opus-4.6 лидирует

Исследователь под псевдонимом каломазе (kalomaze) из проекта Prime Intellect предложил бенчмарк «Big Model Smell», который оценивает преимущества крупных языковых моделей перед меньшими аналогами. По результатам тестирования модель Claude Opus-4.6 от Anthropic заняла первое место.

Каломазе (kalomaze), разработчик из Prime Intellect, представил новый инструмент для оценки эффективности масштабирования языковых моделей. Бенчмарк «Big Model Smell» измеряет, насколько крупные модели превосходят меньшие версии в решении сложных задач, где масштаб действительно имеет значение. В отличие от традиционных тестов, фокусирующихся на общих показателях производительности, этот подход выявляет специфические преимущества больших моделей.

По данным бенчмарка, модель Claude Opus-4.6 от Anthropic показала наилучшие результаты, опередив конкурентов. Второе и третье места заняли модели от Google DeepMind и OpenAI соответственно. Каломазе подчеркнул, что тест не оценивает абсолютную производительность, а лишь демонстрирует, где увеличение параметров модели даёт ощутимый прирост качества.

«Большие модели не всегда лучше, но в некоторых задачах их преимущество очевидно», — написал каломазе в сопроводительном посте. Он также отметил, что бенчмарк может помочь разработчикам принимать более обоснованные решения при выборе архитектуры моделей для конкретных применений.

Результаты тестирования вызвали дискуссию среди специалистов по машинному обучению. Часть экспертов поддержала идею, назвав её шагом к более точной оценке моделей, другие усомнились в универсальности подхода. Подробности методики и исходный код бенчмарка доступны в репозитории Prime Intellect.

Источники: X-пост каломазе (kalomaze), 14 июня 2026; репозиторий Prime Intellect.