·llm-as-a-judge
</>

llm-as-a-judge

Создавайте, проверяйте и развертывайте оценщики LLM-as-Judge для автоматизированной оценки качества результатов конвейера LLM. Используйте этот навык всякий раз, когда пользователь хочет: создать автоматизированный оценщик для субъективных или тонких режимов неудач, написать подсказку для оценки для оценки «прошел/не пройден», разделить помеченные данные для разработки оценки, измерить согласованность судей (TPR/TNR), оценить истинные показатели успеха с коррекцией смещения или настроить конвейеры оценки CI. Также срабатывает, когда пользователь упоминает «подсказку судьи», «автоматическую оценку», «оценщик LLM», «подсказку об оценке», «метрики согласования», «истинный положительный рейтинг» или хочет перейти от ручного просмотра трассировки к автоматической оценке. Этот навык охватывает полный жизненный цикл: быстрое проектирование → разделение данных → итеративное уточнение → оценка степени успеха.

8Установки·0Тренд·@maragudk

Установка

$npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge

Как установить llm-as-a-judge

Быстро установите AI-навык llm-as-a-judge в вашу среду разработки через командную строку

  1. Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
  2. Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
  3. Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Источник: maragudk/evals-skills.

Build reliable automated evaluators that use an LLM to judge the outputs of another LLM pipeline. Each judge targets a single, binary (Pass/Fail) failure mode identified during error analysis.

Use code-based evaluators when the failure is objective and deterministic:

Each failure mode gets its own dedicated evaluator. Never combine multiple criteria into a single judge prompt—this introduces ambiguity and makes diagnosis harder.

Создавайте, проверяйте и развертывайте оценщики LLM-as-Judge для автоматизированной оценки качества результатов конвейера LLM. Используйте этот навык всякий раз, когда пользователь хочет: создать автоматизированный оценщик для субъективных или тонких режимов неудач, написать подсказку для оценки для оценки «прошел/не пройден», разделить помеченные данные для разработки оценки, измерить согласованность судей (TPR/TNR), оценить истинные показатели успеха с коррекцией смещения или настроить конвейеры оценки CI. Также срабатывает, когда пользователь упоминает «подсказку судьи», «автоматическую оценку», «оценщик LLM», «подсказку об оценке», «метрики согласования», «истинный положительный рейтинг» или хочет перейти от ручного просмотра трассировки к автоматической оценке. Этот навык охватывает полный жизненный цикл: быстрое проектирование → разделение данных → итеративное уточнение → оценка степени успеха. Источник: maragudk/evals-skills.

Факты (для цитирования)

Стабильные поля и команды для ссылок в AI/поиске.

Команда установки
npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge
Источник
maragudk/evals-skills
Категория
</>Разработка
Проверено
Впервые замечено
2026-02-22
Обновлено
2026-03-11

Browse more skills from maragudk/evals-skills

Короткие ответы

Что такое llm-as-a-judge?

Создавайте, проверяйте и развертывайте оценщики LLM-as-Judge для автоматизированной оценки качества результатов конвейера LLM. Используйте этот навык всякий раз, когда пользователь хочет: создать автоматизированный оценщик для субъективных или тонких режимов неудач, написать подсказку для оценки для оценки «прошел/не пройден», разделить помеченные данные для разработки оценки, измерить согласованность судей (TPR/TNR), оценить истинные показатели успеха с коррекцией смещения или настроить конвейеры оценки CI. Также срабатывает, когда пользователь упоминает «подсказку судьи», «автоматическую оценку», «оценщик LLM», «подсказку об оценке», «метрики согласования», «истинный положительный рейтинг» или хочет перейти от ручного просмотра трассировки к автоматической оценке. Этот навык охватывает полный жизненный цикл: быстрое проектирование → разделение данных → итеративное уточнение → оценка степени успеха. Источник: maragudk/evals-skills.

Как установить llm-as-a-judge?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/maragudk/evals-skills --skill llm-as-a-judge После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/maragudk/evals-skills

Детали

Категория
</>Разработка
Источник
skills.sh
Впервые замечено
2026-02-22