langgraph-testing-evaluation とは?
このスキルは、LangGraph/LangChain エージェントをテストまたは評価する必要がある場合に使用します。たとえば、単体テストまたは統合テストの作成、テスト スキャフォールドの生成、LLM/ツールの動作のモック化、軌道評価の実行 (一致または判断としての LLM)、LangSmith データセット評価の実行、A/B スタイルのオフライン分析による 2 つのエージェント バージョンの比較などです。 Python および JavaScript/TypeScript のワークフロー、評価器の設計、実験のセットアップ、回帰ゲート、不安定な/間違った評価結果のデバッグに使用します。 ソース: lubu-labs/langchain-agent-skills。