·validate-evaluator
{}

validate-evaluator

Откалибруйте судью LLM по человеческим меткам, используя разделение данных, TPR/TNR и коррекцию смещения. Используйте после написания подсказки судьи (write-judge-prompt), когда вам нужно проверить выравнивание, прежде чем доверять его выводам. НЕ используйте для оценщиков на основе кода (они детерминированы; тестируйте с помощью стандартных модульных тестов).

72Установки·2Тренд·@hamelsmu

Установка

$npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator

Как установить validate-evaluator

Быстро установите AI-навык validate-evaluator в вашу среду разработки через командную строку

  1. Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
  2. Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
  3. Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Источник: hamelsmu/evals-skills.

| Training | 10-20% (10-20 examples) | Source of few-shot examples for the judge prompt | Only clear-cut Pass and Fail cases. Used directly in the prompt. | | Dev | 40-45% (40-45 examples) | Iterative evaluator refinement | Never include in the prompt. Evaluate against repeatedly. |

| Test | 40-45% (40-45 examples) | Final unbiased accuracy measurement | Do NOT look at during development. Used once at the end. |

Target: 30-50 examples of each class (Pass and Fail) across dev and test combined. Use balanced splits even if real-world prevalence is skewed — you need enough Fail examples to measure TNR reliably.

Откалибруйте судью LLM по человеческим меткам, используя разделение данных, TPR/TNR и коррекцию смещения. Используйте после написания подсказки судьи (write-judge-prompt), когда вам нужно проверить выравнивание, прежде чем доверять его выводам. НЕ используйте для оценщиков на основе кода (они детерминированы; тестируйте с помощью стандартных модульных тестов). Источник: hamelsmu/evals-skills.

Факты (для цитирования)

Стабильные поля и команды для ссылок в AI/поиске.

Команда установки
npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator
Источник
hamelsmu/evals-skills
Категория
{}Аналитика
Проверено
Впервые замечено
2026-03-04
Обновлено
2026-03-10

Browse more skills from hamelsmu/evals-skills

Короткие ответы

Что такое validate-evaluator?

Откалибруйте судью LLM по человеческим меткам, используя разделение данных, TPR/TNR и коррекцию смещения. Используйте после написания подсказки судьи (write-judge-prompt), когда вам нужно проверить выравнивание, прежде чем доверять его выводам. НЕ используйте для оценщиков на основе кода (они детерминированы; тестируйте с помощью стандартных модульных тестов). Источник: hamelsmu/evals-skills.

Как установить validate-evaluator?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/hamelsmu/evals-skills --skill validate-evaluator После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/hamelsmu/evals-skills

Детали

Категория
{}Аналитика
Источник
skills.sh
Впервые замечено
2026-03-04