Компания MechanizeWork, занимающаяся разработкой инструментов для оценки возможностей искусственного интеллекта, объявила о поиске специалиста по созданию тестовых заданий, которые не способны решить существующие большие языковые модели (LLM). Вакансия предполагает разработку головоломок и задач для проверки пределов возможностей ИИ.
MechanizeWork, основанная бывшими сотрудниками ведущих лабораторий ИИ, запустила поиск «создателя головоломок» (puzzle maker), чья работа будет заключаться в проектировании оценочных задач, недоступных для решения современными языковыми моделями. Как следует из описания вакансии, опубликованного основателем стартапа Грегом Камрадтом (Greg Kamradt), цель — выявить слабые места LLM и стимулировать развитие более устойчивых к сложным вызовам систем.
В сообществе ИИ инициатива вызвала интерес как потенциальный шаг к созданию более надёжных бенчмарков. Эксперт по безопасности ИИ Майлз Брандейдж (Miles Brundage) отметил, что подобные задачи могут помочь в разработке моделей, способных справляться с нестандартными ситуациями. «Если мы хотим, чтобы ИИ был полезен в реальном мире, нам нужны тесты, которые не просто проверяют знание фактов, но и способность к абстрактному мышлению», — написал он в комментарии к объявлению.
MechanizeWork позиционирует себя как платформу для оценки возможностей ИИ в прикладных сценариях. В отличие от традиционных бенчмарков, таких как MMLU или ARC, стартап фокусируется на задачах, требующих не только логики, но и креативности. Ранее компания уже публиковала наборы тестов, выявляющих уязвимости моделей к манипуляциям или некорректным ответам.
Поиск специалиста по головоломкам может свидетельствовать о растущем спросе на методы оценки ИИ, выходящие за рамки стандартных тестов. В условиях, когда языковые модели демонстрируют высокие результаты на типовых задачах, но терпят неудачу в неожиданных ситуациях, разработка новых оценочных инструментов становится критически важной для индустрии.
Источники: X-пост Грега Камрадта (Greg Kamradt), 3 июня 2026 года; профиль MechanizeWork.