Новости 01:00, 3 июня 2026

Китайская модель Qwen 3.7 Plus обошла GPT-5.4 и Claude Opus в тестах на логическое мышление

Независимый исследователь Лун Ван (Lun Wang), известный под ником Scaling01, опубликовал результаты сравнительного тестирования языковых моделей на бенчмарке LisanBench, где модель Qwen 3.7 Plus от Alibaba показала лучшие результаты среди конкурентов, включая GPT-5.4 от OpenAI и Claude Opus-4.6 от Anthropic.

По данным анализа, проведённого Ваном, Qwen 3.7 Plus продемонстрировала превосходство в задачах, требующих сложного логического мышления и понимания контекста. Бенчмарк LisanBench, разработанный для оценки когнитивных способностей моделей, включает сценарии с многошаговыми рассуждениями, абстрактными аналогиями и интерпретацией неявных связей. В этих тестах китайская модель набрала 89,3% правильных ответов, опередив GPT-5.4 (87,1%) и Claude Opus-4.6 (86,5%).

Результаты вызвали обсуждение в сообществе разработчиков ИИ, поскольку ранее лидерство в подобных тестах удерживали модели американских компаний. В частности, сооснователь Hugging Face Жюльен Шомон (Julien Chaumond) отметил, что успех Qwen 3.7 Plus может быть связан с оптимизацией архитектуры под специфические языковые структуры и культурные контексты. «Это не просто техническое достижение, но и сигнал о том, что подходы к обучению моделей в Китае эволюционируют быстрее, чем ожидалось», — написал он в своём посте.

При этом эксперты подчёркивают, что LisanBench — не единственный бенчмарк, и результаты могут варьироваться в зависимости от типа задач. Например, в тестах на генерацию кода или работу с мультимодальными данными лидерство по-прежнему сохраняют модели OpenAI и Anthropic. Тем не менее, публикация Вана привлекла внимание к растущей конкуренции на рынке языковых моделей, где китайские разработчики активно сокращают отставание от западных аналогов.

Ранее Alibaba уже заявляла о планах коммерциализации Qwen, включая интеграцию модели в корпоративные продукты и облачные сервисы. Результаты тестирования могут ускорить внедрение технологии в бизнес-сегменте, особенно в Азии, где спрос на локализованные ИИ-решения растёт.

Источники: X-пост Лун Вана (Scaling01), 1 июня 2026; пост Жюльена Шомона (julien_c), 1 июня 2026.

Еще новости

Стивен Каспер переходит из MIT в Гарвард на позицию профессора по управлению ИИ

NVIDIA и Microsoft представили потребительский ARM-суперчип RTX Spark на базе Blackwell и Grace

Исследователь OpenAI объяснил, как продвинутые ИИ-модели строят доверие через мелкие разногласия