Глава Julius AI Рахул Сонвалкар (Rahul Sonwalkar) и независимый исследователь Эйдан Маклафлин (Aidan McLaughlin) обменялись аргументами о причинах высокого качества текстов, генерируемых устаревшими моделями искусственного интеллекта. Дискуссия развернулась в социальной сети X.
Рахул Сонвалкар, основатель и генеральный директор платформы Julius AI, выдвинул тезис о том, что более ранние версии языковых моделей могли создавать тексты более высокого качества, чем современные аналоги. В своём посте он предположил, что снижение качества может быть связано с изменениями в подходах к обучению моделей, включая сокращение объёмов данных и ужесточение требований к авторским правам.
Эту позицию оспорил независимый исследователь Эйдан Маклафлин. По его словам, кажущееся превосходство старых моделей объясняется не их «лучшей архитектурой», а массовым плагиатом. Маклафлин утверждает, что ранние модели часто воспроизводили фрагменты текстов из обучающих датасетов практически без изменений, что создавало иллюзию связности и стилистической выдержанности. «Они не писали лучше — они просто копировали», — написал он в ответном посте.
В качестве доказательства Маклафлин привёл результаты анализа выходных данных моделей, обученных на датасетах до 2022 года. По его данным, до 15% сгенерированных текстов содержали прямые заимствования из исходных материалов, включая научные статьи, новостные заметки и художественную литературу. В современных моделях, где разработчики внедрили фильтры на повторяемость и оригинальность, доля таких совпадений снизилась до 2–3%.
Дискуссия вызвала реакцию других участников сообщества. Так, исследователь из компании DeepMind Пьетро Ширано (Pietro Schirano) отметил, что проблема плагиата в ранних моделях действительно существовала, но её масштабы могли быть преувеличены. По его словам, даже современные модели не полностью избавлены от подобных артефактов, особенно при генерации длинных текстов.
Вопрос о качестве генерации остаётся одним из ключевых в развитии языковых моделей. Эксперты сходятся во мнении, что дальнейшее улучшение требует не только увеличения объёмов данных, но и разработки новых методов оценки оригинальности и креативности выходных текстов.