Исследователи из Университета Калифорнии в Беркли и компании Answer.AI представили фреймворк BINEVAL, который оценивает большие языковые модели (LLM) с помощью атомарных бинарных вопросов, показав более высокую точность по сравнению с существующими методами G-Eval и UniEval. Разработка была анонсирована 27 июня.
Фреймворк BINEVAL, разработанный Лун Ваном (Lun Wang) из Калифорнийского университета в Беркли и командой Answer.AI, предлагает новый подход к оценке качества работы больших языковых моделей. В отличие от традиционных методов, таких как G-Eval и UniEval, которые полагаются на комплексные метрики и субъективные оценки, BINEVAL использует набор атомарных бинарных вопросов. Эти вопросы позволяют точнее измерять способность моделей выполнять конкретные задачи, такие как логический вывод, понимание контекста и генерация текста.
По словам авторов, BINEVAL демонстрирует более высокую согласованность с человеческими оценками и меньшую зависимость от предвзятости оценщиков. «Наш подход снижает шум в оценке, разбивая сложные задачи на простые бинарные вопросы, что делает результаты более воспроизводимыми», — отметил Ван в сопроводительном блоге проекта. Фреймворк уже протестирован на нескольких популярных моделях, включая LLaMA-3 и Mistral, и показал превосходство над конкурирующими методами в точности и надежности.
Разработчики выложили исходный код BINEVAL в открытый доступ, приглашая сообщество к сотрудничеству и дальнейшему развитию инструмента. В блоге также подчеркивается, что фреймворк может быть полезен не только для академических исследований, но и для коммерческих применений, где требуется объективная оценка производительности LLM.
Отмечается, что BINEVAL не заменяет полностью существующие методы оценки, но дополняет их, предлагая более детализированный и прозрачный анализ. В будущем авторы планируют расширить набор тестов и интегрировать фреймворк с другими инструментами для оценки моделей.
Источники: X-пост Омара Сара (Omar Sar), 27 июня; блог Answer.AI.