Натан Ламберт (Nathan Lambert), ведущий исследователь по посттренингу в Allen Institute for AI (AI2), сообщил о подготовке книги, посвящённой методам посттренинга языковых моделей, и зарегистрировал домены posttrainingbook.com и pretrainingbook.com. Объявление вызвало обсуждение в профессиональном сообществе.
Натан Ламберт, руководитель направления посттренинга в Allen Institute for AI (AI2), уточнил, что его готовящаяся к выходу книга будет полностью посвящена методам посттренинга — этапу настройки языковых моделей после предварительного обучения. В своём посте в X Ламберт анонсировал сайт posttrainingbook.com, где, по его словам, будет представлена информация о проекте.
В тот же день исследователь сообщил о регистрации ещё одного домена — pretrainingbook.com, который, как он пошутил, готов продать за подписанный экземпляр будущей книги при условии, что потенциальный покупатель напишет «достаточно хорошую» книгу о предтренинге. Реакция коллег была оживлённой: одни отметили неожиданную доступность домена, другие в шутку предположили, что Ламберт «похоронил» тему предтренинга, третьи — что он открыл новый способ инвестиций в доменные имена.
«Когда кто-то захочет этот домен, я продам его за бесплатный подписанный экземпляр, если сочту книгу достаточно хорошей», — написал Ламберт, добавив, что вариант rlvrbook.com уже занят. Ранее он также зарегистрировал домен rlforagents.com, связанный с обучением агентов с подкреплением.
Обсуждение в X подчеркнуло интерес к теме посттренинга, которая в последние годы стала ключевой для улучшения качества и безопасности языковых моделей. В отличие от предтренинга — ресурсоёмкого процесса обучения моделей на больших массивах данных, — посттренинг фокусируется на тонкой настройке уже обученных моделей с помощью методов, таких как обучение с подкреплением на основе человеческой обратной связи (RLHF). В AI2 Ламберт занимается именно этим направлением, и его книга может стать одним из первых систематизированных руководств по теме.