Подкастер и аналитик Дуареш Пател (Dwarkesh Patel) опубликовал тезис о критическом разрыве в эффективности использования данных между большими языковыми моделями (LLM) и человеком. По его оценке, для достижения сопоставимого уровня понимания модели требуют на несколько порядков больше примеров, чем люди.
Пател, ведущий подкаста «The Lunar Society», привёл расчёты, согласно которым современные LLM обучаются на массивах данных, в тысячи раз превышающих объём информации, доступной человеку за всю жизнь. При этом, как отмечает автор, модели не демонстрируют пропорционального преимущества в качестве обучения. Например, ребёнок способен освоить понятие «собака» после нескольких примеров, тогда как нейросеть требует миллионов изображений для аналогичной задачи.
В качестве одной из причин Пател называет отсутствие у моделей механизмов активного обучения и интерактивного взаимодействия с окружением — процессов, критически важных для человеческого познания. «LLM пассивно потребляют данные, тогда как люди постоянно тестируют гипотезы и корректируют ментальные модели», — пишет он. Автор также указывает на ограниченность существующих подходов к обучению с подкреплением (RLHF), которые не воспроизводят полноценный цикл обратной связи, характерный для человеческого обучения.
Тезис вызвал дискуссию среди специалистов по машинному обучению. Исследователь из DeepMind Кевин Патрик Мёрфи (Kevin Patrick Murphy) поддержал аргумент, добавив, что разрыв в эффективности усугубляется отсутствием у моделей врождённых когнитивных структур, таких как базовые представления о физике или социальных нормах. В свою очередь, разработчик из Stanford Омар Хаттаб (Omar Khattab) предположил, что проблема может быть частично решена за счёт улучшения архитектур моделей и методов предобучения, однако фундаментальные ограничения остаются.
Пател не предлагает конкретных технических решений, но подчёркивает, что преодоление «проблемы эффективности данных» станет ключевым вызовом для следующего поколения систем ИИ. По его словам, без прорыва в этой области дальнейшее масштабирование моделей может натолкнуться на экономические и экологические ограничения, связанные с затратами на обучение.