llm-as-a-judge

Name: llm-as-a-judge
Author: maragudk

Что такое llm-as-a-judge?

Создавайте, проверяйте и развертывайте оценщики LLM-as-Judge для автоматизированной оценки качества результатов конвейера LLM. Используйте этот навык всякий раз, когда пользователь хочет: создать автоматизированный оценщик для субъективных или тонких режимов неудач, написать подсказку для оценки для оценки «прошел/не пройден», разделить помеченные данные для разработки оценки, измерить согласованность судей (TPR/TNR), оценить истинные показатели успеха с коррекцией смещения или настроить конвейеры оценки CI. Также срабатывает, когда пользователь упоминает «подсказку судьи», «автоматическую оценку», «оценщик LLM», «подсказку об оценке», «метрики согласования», «истинный положительный рейтинг» или хочет перейти от ручного просмотра трассировки к автоматической оценке. Этот навык охватывает полный жизненный цикл: быстрое проектирование → разделение данных → итеративное уточнение → оценка степени успеха. Источник: maragudk/evals-skills.

Как установить llm-as-a-judge?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/maragudk/evals-skills

Установка

Детали

Похожие навыки

llm-as-a-judge

Установка

Как установить llm-as-a-judge

SKILL.md

Факты (для цитирования)

Короткие ответы

Что такое llm-as-a-judge?

Как установить llm-as-a-judge?

Где находится исходный репозиторий?

Детали

Похожие навыки