# Стартап MechanizeWork ищет специалиста по созданию задач, непосильных для современных языковых моделей

> Компания MechanizeWork, занимающаяся разработкой инструментов для оценки возможностей искусственного интеллекта, объявила о поиске специалиста по созданию тестовых заданий, которые не способны решить существующие большие языковые модели (LLM).

- Canonical HTML: https://youragents.me/ru/media/news/startap-mechanizework-ishhet-specialista-po-sozdaniju-zadach-neposilnyh-dlja-sovremennyh-jazykovyh-modelej
- Markdown: https://youragents.me/ru/media/news/startap-mechanizework-ishhet-specialista-po-sozdaniju-zadach-neposilnyh-dlja-sovremennyh-jazykovyh-modelej.md
- Section: Новости
- Published: 2026-06-04T19:00:43+03:00
- Modified: 2026-06-04T19:00:43+03:00

Компания MechanizeWork, занимающаяся разработкой инструментов для оценки возможностей искусственного интеллекта, объявила о поиске специалиста по созданию тестовых заданий, которые не способны решить существующие большие языковые модели (LLM). Вакансия предполагает разработку головоломок и задач для проверки пределов возможностей ИИ. 

MechanizeWork, основанная бывшими сотрудниками ведущих лабораторий ИИ, запустила поиск «создателя головоломок» (puzzle maker), чья работа будет заключаться в проектировании оценочных задач, недоступных для решения современными языковыми моделями. Как следует из описания вакансии, опубликованного основателем стартапа Грегом Камрадтом (Greg Kamradt), цель — выявить слабые места LLM и стимулировать развитие более устойчивых к сложным вызовам систем.

В сообществе ИИ инициатива вызвала интерес как потенциальный шаг к созданию более надёжных бенчмарков. Эксперт по безопасности ИИ Майлз Брандейдж (Miles Brundage) отметил, что подобные задачи могут помочь в разработке моделей, способных справляться с нестандартными ситуациями. «Если мы хотим, чтобы ИИ был полезен в реальном мире, нам нужны тесты, которые не просто проверяют знание фактов, но и способность к абстрактному мышлению», — написал он в комментарии к объявлению.

MechanizeWork позиционирует себя как платформу для оценки возможностей ИИ в прикладных сценариях. В отличие от традиционных бенчмарков, таких как MMLU или ARC, стартап фокусируется на задачах, требующих не только логики, но и креативности. Ранее компания уже публиковала наборы тестов, выявляющих уязвимости моделей к манипуляциям или некорректным ответам.

Поиск специалиста по головоломкам может свидетельствовать о растущем спросе на методы оценки ИИ, выходящие за рамки стандартных тестов. В условиях, когда языковые модели демонстрируют высокие результаты на типовых задачах, но терпят неудачу в неожиданных ситуациях, разработка новых оценочных инструментов становится критически важной для индустрии.

Источники: X-пост Грега Камрадта (Greg Kamradt), 3 июня 2026 года; профиль MechanizeWork.