Научный руководитель подразделения Meta FAIR Франсуа Флёрэ (François Fleuret) опубликовал пост о методе спекулятивного декодинга, который, по его словам, позволяет почти вдвое ускорить работу языковых моделей без дополнительных затрат на обучение или снижения точности.
Франсуа Флёрэ, возглавляющий направление фундаментальных исследований в области ИИ в Meta FAIR, представил результаты экспериментов со спекулятивным декодингом — методом, который ускоряет генерацию текста языковыми моделями за счёт параллельной обработки токенов. В своём посте на X он утверждает, что подход позволяет достичь прироста скорости до 90% без изменения архитектуры модели или необходимости дообучения.
Суть метода заключается в том, что модель-«черновик» с меньшим числом параметров предсказывает несколько токенов одновременно, а основная модель затем проверяет их корректность. По словам Флёрэ, такой подход не только ускоряет генерацию, но и сохраняет качество выходного текста на уровне базовой модели. В качестве примера он привёл эксперимент с моделью Llama 3 70B, где спекулятивное декодирование позволило сократить время генерации почти вдвое при сохранении точности.
Публикация вызвала дискуссию среди исследователей. Часть комментаторов, включая специалистов из Google DeepMind и Hugging Face, отметили, что метод действительно перспективен для оптимизации inference, но его эффективность может снижаться при работе с задачами, требующими глубокого логического вывода. Другие указали на потенциальные ограничения: например, зависимость от качества модели-«черновика» и сложность подбора оптимальных параметров для разных сценариев.
Флёрэ подчеркнул, что спекулятивное декодирование не заменяет фундаментальные улучшения архитектуры моделей, но может стать «почти бесплатным» способом повышения производительности уже существующих систем. Подробности экспериментов доступны в блоге Meta FAIR.
Источники: X-пост Франсуа Флёрэ (François Fleuret), 20 июня; блог Meta FAIR.