eval-harness
✓AI 支援実装の体系的なテスト、測定、品質保証のための包括的な評価フレームワーク。能力評価、回帰テスト、複数の採点タイプ、および標準化されたメトリクスをサポートします。
SKILL.md
Evaluation-driven development (EDD) is a methodology where evaluations are defined before or alongside implementation, ensuring that success criteria are explicit, measurable, and testable from the start.
Purpose: Verify that a new capability works correctly. Capability evals test whether the system can do something it couldn't do before, or does something better than before.
Purpose: Verify that existing functionality still works after changes. Regression evals protect against unintended breakage.
AI 支援実装の体系的なテスト、測定、品質保証のための包括的な評価フレームワーク。能力評価、回帰テスト、複数の採点タイプ、および標準化されたメトリクスをサポートします。 ソース: mhylle/claude-skills-collection。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/mhylle/claude-skills-collection --skill eval-harness- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
eval-harness とは?
AI 支援実装の体系的なテスト、測定、品質保証のための包括的な評価フレームワーク。能力評価、回帰テスト、複数の採点タイプ、および標準化されたメトリクスをサポートします。 ソース: mhylle/claude-skills-collection。
eval-harness のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/mhylle/claude-skills-collection --skill eval-harness インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/mhylle/claude-skills-collection
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-01