generate-synthetic-data とは?
ディメンションベースのタプル生成を使用して、LLM パイプライン評価用の多様な合成テスト入力を作成します。評価データセットをブートストラップする場合、実際のユーザー データがまばらな場合、または特定の障害仮説をストレス テストする場合に使用します。すでに 100 を超える代表的な実際のトレースがある場合 (代わりに層別サンプリングを使用する)、またはタスクが運用ログを収集している場合は使用しないでください。 ソース: hamelsmu/evals-skills。