Стартап Poolside AI представил подробный технический отчёт о своих языковых моделях Laguna M.1 и XS.2, а также о лежащей в их основе инфраструктуре Model Factory. Документ вызвал интерес экспертов из-за раскрытия деталей обучения, данных и архитектурных решений.
Poolside AI, разработчик языковых моделей, сделал редкий для индустрии шаг — опубликовал технический отчёт, в котором подробно описал не только характеристики своих моделей Laguna M.1 и XS.2, но и инфраструктуру Model Factory, на базе которой они создаются. Как отметила в X Сара Хукер (Sara Hooker), глава Cohere For AI, документ отличается от стандартных «карточек моделей»: вместо фиксации результатов на определённый момент времени он фокусируется на процессах и инструментах, позволяющих эти модели создавать.
В отчёте, который высоко оценили исследователи, раскрываются ключевые аспекты обучения моделей. В частности, Poolside AI сообщила о дефиците данных для работы с длинными контекстами: из общего объёма в 30 трлн токенов лишь 200 млрд использовались для расширения контекстного окна. Эли Бакуш (Elie Bakouch), инженер по машинному обучению, подчеркнул, что документ содержит не только описание успешных решений, но и анализ ошибок первой версии модели (M1) и способов их исправления в XS.2. Отдельно отмечены детали по обучению с подкреплением (RL) и инфраструктурным решениям.
Отчёт Poolside AI выделяется на фоне других публикаций в индустрии не только глубиной технических деталей, но и акцентом на прозрачности. Компания не ограничилась описанием финальных продуктов, а раскрыла архитектуру своей «фабрики моделей» — системы, позволяющей вести исследования и обучение в непрерывном режиме. Это может стать ориентиром для других разработчиков, стремящихся к воспроизводимости и масштабируемости процессов.