Старший инженер-исследователь Meta Лукас Бейер (Lucas Beyer) обратился к сообществу с вопросом о существовании серьёзных репозиториев для предобучения открытых языковых моделей (LLM), не зависящих от фреймворка NVIDIA Megatron-LM.
Вопрос Бейера, опубликованный в социальной сети X, отражает растущий интерес индустрии к диверсификации инструментов для обучения крупных языковых моделей. Megatron-LM, разработанный NVIDIA, остаётся одним из самых распространённых фреймворков для распределённого обучения LLM, однако его закрытая архитектура и зависимость от оборудования NVIDIA ограничивают возможности независимых исследователей и разработчиков.
В обсуждении под постом Бейера участники предложили несколько альтернатив. Среди них — библиотека DeepSpeed от Microsoft, которая поддерживает обучение на гетерогенных кластерах, а также фреймворк Colossal-AI, оптимизированный для работы с большими моделями на ограниченных ресурсах. Инженер-исследователь из Allen Institute for AI Лука Солдайни (Luca Soldaini) отметил, что многие команды адаптируют существующие решения под свои нужды, но универсального открытого инструмента, сравнимого с Megatron-LM по функциональности, пока нет.
«Проблема не только в технических ограничениях, но и в отсутствии стандартизации, — написал в ответ на пост Бейера сооснователь EleutherAI Стелла Бидерман (Stella Biderman). — Каждый проект вынужден изобретать велосипед, что замедляет прогресс». По её словам, сообществу необходим открытый фреймворк с поддержкой различных аппаратных платформ, включая GPU от AMD и ускорители на базе TPU.
Вопрос Бейера также коснулся более широкой дискуссии о зависимости индустрии ИИ от проприетарных решений NVIDIA. В последние годы компания доминирует на рынке аппаратного обеспечения для обучения нейросетей, что вызывает опасения у регуляторов и конкурентов. В мае Европейская комиссия начала расследование в отношении NVIDIA по подозрению в злоупотреблении доминирующим положением, а в США сенаторы призвали ограничить экспорт передовых чипов в Китай.
Пока Meta не комментирует, планирует ли компания разрабатывать собственный фреймворк для обучения LLM. Однако запрос Бейера может стать катализатором для консолидации усилий в открытом сообществе.