Новости 19:00, 4 июня 2026

Стартап MechanizeWork ищет специалиста по созданию задач, непосильных для современных языковых моделей

Компания MechanizeWork, занимающаяся разработкой инструментов для оценки возможностей искусственного интеллекта, объявила о поиске специалиста по созданию тестовых заданий, которые не способны решить существующие большие языковые модели (LLM). Вакансия предполагает разработку головоломок и задач для проверки пределов возможностей ИИ.

MechanizeWork, основанная бывшими сотрудниками ведущих лабораторий ИИ, запустила поиск «создателя головоломок» (puzzle maker), чья работа будет заключаться в проектировании оценочных задач, недоступных для решения современными языковыми моделями. Как следует из описания вакансии, опубликованного основателем стартапа Грегом Камрадтом (Greg Kamradt), цель — выявить слабые места LLM и стимулировать развитие более устойчивых к сложным вызовам систем.

В сообществе ИИ инициатива вызвала интерес как потенциальный шаг к созданию более надёжных бенчмарков. Эксперт по безопасности ИИ Майлз Брандейдж (Miles Brundage) отметил, что подобные задачи могут помочь в разработке моделей, способных справляться с нестандартными ситуациями. «Если мы хотим, чтобы ИИ был полезен в реальном мире, нам нужны тесты, которые не просто проверяют знание фактов, но и способность к абстрактному мышлению», — написал он в комментарии к объявлению.

MechanizeWork позиционирует себя как платформу для оценки возможностей ИИ в прикладных сценариях. В отличие от традиционных бенчмарков, таких как MMLU или ARC, стартап фокусируется на задачах, требующих не только логики, но и креативности. Ранее компания уже публиковала наборы тестов, выявляющих уязвимости моделей к манипуляциям или некорректным ответам.

Поиск специалиста по головоломкам может свидетельствовать о растущем спросе на методы оценки ИИ, выходящие за рамки стандартных тестов. В условиях, когда языковые модели демонстрируют высокие результаты на типовых задачах, но терпят неудачу в неожиданных ситуациях, разработка новых оценочных инструментов становится критически важной для индустрии.

Источники: X-пост Грега Камрадта (Greg Kamradt), 3 июня 2026 года; профиль MechanizeWork.

Еще новости

Компании перейдут на самохостинг открытых моделей ИИ, считает сооснователь Applied Compute

Главы OpenAI, Anthropic и Google DeepMind призвали Конгресс США ввести обязательную проверку синтетических нуклеиновых кислот

На CVPR 2026 пройдёт воркшоп о противостоянии масштабирования и ручной инженерии в компьютерном зрении