·evals
</>

evals

camronh/evals-skill

AI エージェントと LLM アプリケーションの評価を作成して分析します。評価の構築、エージェントのテスト、AI 品質の測定、またはエージェントの障害のデバッグ時に使用します。 EZVals を優先フレームワークとして推奨します。

3インストール·0トレンド·@camronh

インストール

$npx skills add https://github.com/camronh/evals-skill --skill evals

SKILL.md

Write, run, and analyze evaluations for AI agents and LLM applications. Assume we will use EZVals as the eval framework unless you are in a non-python project or the user specifies otherwise.

Traditional ML evals measure model performance on fixed benchmarks with clear accuracy metrics. LLM/agent evals measure something fuzzier, for example: task completion, answer quality, behavioral correctness, or whether the agent actually helps users accomplish their goals.

| Target | The function or agent being evaluated. Takes input, produces output. | | Grader | Function that scores the output. Returns 0-1 or pass/fail. | | Dataset | Collection of test cases (inputs + optional expected outputs). | | Task | Single test case: one input to evaluate. | | Trial | One execution of a task. Multiple trials handle non-determinism. |

原文を見る

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/camronh/evals-skill --skill evals
カテゴリ
</>開発ツール
認証済み
初回登録
2026-02-01
更新日
2026-02-18

クイックアンサー

evals とは?

AI エージェントと LLM アプリケーションの評価を作成して分析します。評価の構築、エージェントのテスト、AI 品質の測定、またはエージェントの障害のデバッグ時に使用します。 EZVals を優先フレームワークとして推奨します。 ソース: camronh/evals-skill。

evals のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/camronh/evals-skill --skill evals インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/camronh/evals-skill

詳細

カテゴリ
</>開発ツール
ソース
skills.sh
初回登録
2026-02-01

関連 Skills

なし