Исследователь Майкл Рабинович (Michael Rabinovich) протестировал обновлённую модель Anthropic Opus 4.8 на задачах преобразования 2D-чертежей в 3D-модели для систем автоматизированного проектирования (CAD) и зафиксировал значительное улучшение результатов по сравнению с предыдущими версиями.
Майкл Рабинович, чья аффилиация не уточняется в опубликованных материалах, провёл сравнительное тестирование трёх последних версий модели Opus — 4.6, 4.7 и 4.8 — на специфических задачах CAD. По его словам, результаты оказались «неожиданными», что косвенно подтверждает качественный скачок в производительности новой версии.
Тестирование было сосредоточено на оценке мультимодального восприятия модели, её способности анализировать одни и те же пиксели в цикле и генерировать код на основе пространственного понимания. Как отметил пользователь X под ником Teortaxes, это более строгий бенчмарк, чем популярные тесты на создание интерфейсов по наброскам на салфетках. В комментарии к посту Рабиновича он подчеркнул, что такой подход лучше отражает реальные сценарии применения ИИ в инженерных задачах.
Эксперт по машинному обучению Боян Тунгуз (Bojan Tunguz) назвал предложенный Рабиновичем тест «лучшим из виденных» для оценки пространственного мышления моделей. Впрочем, конкретные метрики улучшений и детали бенчмарка в опубликованных постах не приводятся. Вероятно, более подробные результаты могут быть представлены в отдельном техническом отчёте или блоге.
Opus — одна из флагманских моделей Anthropic, позиционируемая как конкурентоспособная альтернатива решениям от OpenAI и Google DeepMind. Ранее компания делала акцент на безопасности и интерпретируемости своих моделей, однако последние обновления, судя по реакции сообщества, демонстрируют прогресс и в прикладных задачах.