Стартап Prime Intellect, специализирующийся на инфраструктуре для оценки моделей искусственного интеллекта, запустил платформу Hosted Evaluations, которая автоматизирует развёртывание вычислительных ресурсов и песочниц для бенчмаркинга.
Prime Intellect, основанный бывшими сотрудниками Google DeepMind и Meta, объявил о запуске Hosted Evaluations — инструмента, предназначенного для упрощения тестирования и сравнения моделей искусственного интеллекта. Платформа берёт на себя управление инфраструктурой: от выделения вычислительных мощностей до создания изолированных сред (песочниц) для безопасного выполнения кода, генерируемого моделями.
Как отмечают разработчики, Hosted Evaluations решает ключевую проблему индустрии — высокую трудоёмкость подготовки инфраструктуры для оценки моделей. Традиционно процесс требует ручной настройки серверов, конфигурации безопасности и мониторинга, что замедляет тестирование и увеличивает издержки. Новый инструмент автоматизирует эти этапы, позволяя исследователям и компаниям сосредоточиться на анализе результатов, а не на администрировании.
Платформа поддерживает интеграцию с популярными бенчмарками, включая HELM и Big-Bench, и предлагает гибкие сценарии тестирования — от оценки производительности на стандартных задачах до проверки устойчивости моделей к некорректным входным данным. По словам сооснователя Prime Intellect Лун Вана (Lun Wang), Hosted Evaluations «снижает порог входа для команд, у которых нет собственных вычислительных кластеров».
Инструмент уже используется в закрытом бета-тестировании несколькими лабораториями и стартапами, работающими над языковыми моделями. Подробности о функциональности и условиях доступа опубликованы в блоге компании.