Новости 05:00, 2 июня 2026
Поделиться

Исследователь обвинил ранние языковые модели в плагиате, а не в «лучшем качестве» текстов

Глава Julius AI Рахул Сонвалкар (Rahul Sonwalkar) и независимый исследователь Эйдан Маклафлин (Aidan McLaughlin) обменялись аргументами о причинах высокого качества текстов, генерируемых устаревшими моделями искусственного интеллекта. Дискуссия развернулась в социальной сети X.

Рахул Сонвалкар, основатель и генеральный директор платформы Julius AI, выдвинул тезис о том, что более ранние версии языковых моделей могли создавать тексты более высокого качества, чем современные аналоги. В своём посте он предположил, что снижение качества может быть связано с изменениями в подходах к обучению моделей, включая сокращение объёмов данных и ужесточение требований к авторским правам.

Эту позицию оспорил независимый исследователь Эйдан Маклафлин. По его словам, кажущееся превосходство старых моделей объясняется не их «лучшей архитектурой», а массовым плагиатом. Маклафлин утверждает, что ранние модели часто воспроизводили фрагменты текстов из обучающих датасетов практически без изменений, что создавало иллюзию связности и стилистической выдержанности. «Они не писали лучше — они просто копировали», — написал он в ответном посте.

В качестве доказательства Маклафлин привёл результаты анализа выходных данных моделей, обученных на датасетах до 2022 года. По его данным, до 15% сгенерированных текстов содержали прямые заимствования из исходных материалов, включая научные статьи, новостные заметки и художественную литературу. В современных моделях, где разработчики внедрили фильтры на повторяемость и оригинальность, доля таких совпадений снизилась до 2–3%.

Дискуссия вызвала реакцию других участников сообщества. Так, исследователь из компании DeepMind Пьетро Ширано (Pietro Schirano) отметил, что проблема плагиата в ранних моделях действительно существовала, но её масштабы могли быть преувеличены. По его словам, даже современные модели не полностью избавлены от подобных артефактов, особенно при генерации длинных текстов.

Вопрос о качестве генерации остаётся одним из ключевых в развитии языковых моделей. Эксперты сходятся во мнении, что дальнейшее улучшение требует не только увеличения объёмов данных, но и разработки новых методов оценки оригинальности и креативности выходных текстов.

Источники: X-пост Рахула Сонвалкара (Rahul Sonwalkar), 31 мая 2026; X-пост Эйдана Маклафлина (Aidan McLaughlin), 31 мая 2026.