Новости 06:37, 1 июня 2026
Поделиться

Prime Intellect представила платформу Hosted Evaluations для упрощения бенчмаркинга ИИ-моделей

Стартап Prime Intellect, специализирующийся на инфраструктуре для оценки искусственного интеллекта, запустил сервис Hosted Evaluations, который автоматизирует управление вычислительными ресурсами и изолированными средами для тестирования моделей. Об этом сообщили основатели компании в социальной сети X.

Prime Intellect выпустил Hosted Evaluations — инструмент, предназначенный для упрощения процесса бенчмаркинга крупных языковых моделей (LLM). Сервис берёт на себя управление вычислительной инфраструктурой и созданием изолированных сред («песочниц»), что позволяет исследователям и разработчикам сосредоточиться на оценке производительности моделей, а не на настройке окружения.

По словам сооснователя Prime Intellect Лун Вана (Lun Wang), Hosted Evaluations решает ключевую проблему современного бенчмаркинга: необходимость вручную развёртывать и поддерживать сложные вычислительные кластеры. «Мы автоматизируем всю инфраструктурную часть, включая управление GPU, сетевыми ресурсами и безопасностью, — отметил Ван. — Пользователи получают готовые среды для запуска тестов, будь то оценка точности, скорости или устойчивости к атакам».

Сервис ориентирован на команды, работающие с открытыми и проприетарными моделями, а также на исследователей, публикующих результаты в научных статьях. Hosted Evaluations поддерживает интеграцию с популярными бенчмарками, такими как MMLU, HELM и Big-Bench, и позволяет запускать тесты на различных конфигурациях оборудования. Компания также предоставляет API для автоматизации рабочих процессов.

Prime Intellect позиционирует Hosted Evaluations как альтернативу ручному развёртыванию инфраструктуры на облачных платформах, таких как AWS или Google Cloud. В отличие от универсальных облачных решений, сервис оптимизирован под задачи оценки ИИ-моделей, включая поддержку распределённых вычислений и динамическое масштабирование ресурсов.

Ранее Prime Intellect выпустил открытый фреймворк для бенчмаркинга, который используется в академических и корпоративных проектах. Новый сервис расширяет функциональность платформы, предлагая управляемое решение для команд, не имеющих собственных вычислительных мощностей.

Источники: X-пост Лун Вана (Lun Wang), 30 мая 2026 г.; блог Prime Intellect.