# Крупные лаборатории ИИ тратят до $15 млрд на неэффективные обучающие данные

> Аналитик и создатель контента Теортакес (Teortaxes) утверждает, что ведущие компании в области искусственного интеллекта расходуют миллиарды долларов на подготовку высококачественных обучающих данных, при этом рынок страдает от неэффективности и завышенных...

- Canonical HTML: https://youragents.me/ru/media/news/krupnye-laboratorii-ii-tratjat-do-15-mlrd-na-nejeffektivnye-obuchajushhie-dannye
- Markdown: https://youragents.me/ru/media/news/krupnye-laboratorii-ii-tratjat-do-15-mlrd-na-nejeffektivnye-obuchajushhie-dannye.md
- Section: Новости
- Published: 2026-05-31T19:00:37+03:00
- Modified: 2026-05-31T19:00:37+03:00

Аналитик и создатель контента Теортакес (Teortaxes) утверждает, что ведущие компании в области искусственного интеллекта расходуют миллиарды долларов на подготовку высококачественных обучающих данных, при этом рынок страдает от неэффективности и завышенных цен. Дискуссия развернулась после публикации в X, где обсуждались стоимость и доступность сложных задач для оценки моделей. 

Теортакес, известный как сторонник китайской лаборатории DeepSeek, опубликовал в X пост, в котором оценил стоимость подготовки сложных обучающих данных для моделей искусственного интеллекта. По его словам, цена на качественные задачи с длинным горизонтом выполнения доходит до $20 000 за единицу, а создание полноценной версии корпоративной системы SAP для браузера может обойтись в $500 000. «Это указывает на неэффективность рынка», — отметил он.

В обсуждении приняли участие представители исследовательских организаций и компаний. Крис Пейнтер (Chris Painter), сотрудник некоммерческой организации METR, занимающейся оценкой рисков ИИ, подтвердил, что его команда столкнулась с трудностями при поиске поставщиков сложных задач. «Нам очень сложно найти вендоров, которые могут предложить долгосрочные сложные задачи, пригодные для использования», — написал Пейнтер в ответ на пост Теортакеса.

Эксперты связывают проблему с ограниченным предложением на рынке обучающих данных. По словам участников дискуссии, даже ведущие бенчмарки для оценки агентов ИИ содержат небольшое количество задач: например, DeepSWE — 113, TerminalBench-2.0 — 89, а SWE-Bench-Verified — всего 500. Камерон Вулф (Cameron R. Wolfe), исследователь с докторской степенью, выразил надежду, что многомиллиардные инвестиции лабораторий приведут к появлению более качественных публичных бенчмарков.

Вопрос о том, как оптимизировать расходы на подготовку данных, остаётся открытым. Один из участников обсуждения предложил использовать обратную разработку существующих программных продуктов, таких как игры, для создания обучающих наборов. Однако конкретных решений пока не предложено.

Источники: X-пост Теортакеса (TeortaxesTex), 30 мая 2026; X-пост Криса Пейнтера (ChrisPainterYup), 30 мая 2026; X-пост Камерона Вулфа (cwolferesearch), 30 мая 2026.