ai-error-analysis-and-eval-design とは?
特定の障害モードを特定し、自動化された LLM 判定を構築することで、AI 製品を「雰囲気チェック」の枠を超えたものにするための体系的なワークフロー。これは、AI 出力が「ジャンキー」と感じられる場合、迅速なエンジニアリングのためにフィードバック信号が必要な場合、または大規模な生産パフォーマンスを監視する場合に使用します。 ソース: samarv/shanon。
特定の障害モードを特定し、自動化された LLM 判定を構築することで、AI 製品を「雰囲気チェック」の枠を超えたものにするための体系的なワークフロー。これは、AI 出力が「ジャンキー」と感じられる場合、迅速なエンジニアリングのためにフィードバック信号が必要な場合、または大規模な生産パフォーマンスを監視する場合に使用します。
コマンドラインで ai-error-analysis-and-eval-design AI スキルを開発環境にすばやくインストール
ソース: samarv/shanon。
To build great AI products, you must transition from subjective "vibe checks" to systematic measurement. This process identifies exactly where an LLM is failing and creates a feedback loop for continuous improvement.
Phase 1: Open Coding (The "Benevolent Dictator" Phase) Before automating, you must manually ground yourself in the data. Appoint one "Benevolent Dictator"—typically the Product Manager or domain expert—to define "good" taste.
Phase 2: Axial Coding (Categorization) Synthesize your mess of notes into actionable categories using an LLM.
特定の障害モードを特定し、自動化された LLM 判定を構築することで、AI 製品を「雰囲気チェック」の枠を超えたものにするための体系的なワークフロー。これは、AI 出力が「ジャンキー」と感じられる場合、迅速なエンジニアリングのためにフィードバック信号が必要な場合、または大規模な生産パフォーマンスを監視する場合に使用します。 ソース: samarv/shanon。
AI/検索での引用用の安定したフィールドとコマンド。
npx skills add https://github.com/samarv/shanon --skill ai-error-analysis-and-eval-design特定の障害モードを特定し、自動化された LLM 判定を構築することで、AI 製品を「雰囲気チェック」の枠を超えたものにするための体系的なワークフロー。これは、AI 出力が「ジャンキー」と感じられる場合、迅速なエンジニアリングのためにフィードバック信号が必要な場合、または大規模な生産パフォーマンスを監視する場合に使用します。 ソース: samarv/shanon。
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/samarv/shanon --skill ai-error-analysis-and-eval-design インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code、Cursor、OpenClaw で使用できるようになります
https://github.com/samarv/shanon