Новости 23:00, 28 июня 2026

Новый фреймворк BINEVAL превзошел G-Eval и UniEval в оценке больших языковых моделей

Исследователи из Университета Калифорнии в Беркли и компании Answer.AI представили фреймворк BINEVAL, который оценивает большие языковые модели (LLM) с помощью атомарных бинарных вопросов, показав более высокую точность по сравнению с существующими методами G-Eval и UniEval. Разработка была анонсирована 27 июня.

Фреймворк BINEVAL, разработанный Лун Ваном (Lun Wang) из Калифорнийского университета в Беркли и командой Answer.AI, предлагает новый подход к оценке качества работы больших языковых моделей. В отличие от традиционных методов, таких как G-Eval и UniEval, которые полагаются на комплексные метрики и субъективные оценки, BINEVAL использует набор атомарных бинарных вопросов. Эти вопросы позволяют точнее измерять способность моделей выполнять конкретные задачи, такие как логический вывод, понимание контекста и генерация текста.

По словам авторов, BINEVAL демонстрирует более высокую согласованность с человеческими оценками и меньшую зависимость от предвзятости оценщиков. «Наш подход снижает шум в оценке, разбивая сложные задачи на простые бинарные вопросы, что делает результаты более воспроизводимыми», — отметил Ван в сопроводительном блоге проекта. Фреймворк уже протестирован на нескольких популярных моделях, включая LLaMA-3 и Mistral, и показал превосходство над конкурирующими методами в точности и надежности.

Разработчики выложили исходный код BINEVAL в открытый доступ, приглашая сообщество к сотрудничеству и дальнейшему развитию инструмента. В блоге также подчеркивается, что фреймворк может быть полезен не только для академических исследований, но и для коммерческих применений, где требуется объективная оценка производительности LLM.

Отмечается, что BINEVAL не заменяет полностью существующие методы оценки, но дополняет их, предлагая более детализированный и прозрачный анализ. В будущем авторы планируют расширить набор тестов и интегрировать фреймворк с другими инструментами для оценки моделей.

Источники: X-пост Омара Сара (Omar Sar), 27 июня; блог Answer.AI.

Еще новости

Сжатие цепочек рассуждений снижает точность дистиллированных моделей ИИ

Партнёр a16z назвала главную проблему потребительских ИИ-приложений: отсутствие совместной работы

Независимый исследователь синтезировал новый препарат от болезни Альцгеймера в гараже с помощью ИИ