simpo-training とは?
LLM アライメントのためのシンプルな設定の最適化。より優れたパフォーマンスを備えた DPO のリファレンスフリーの代替品 (AlpacaEval 2.0 で +6.4 ポイント)。参照モデルは必要なく、DPO よりも効率的です。 DPO/PPO よりもシンプルで高速なトレーニングが必要な場合に、好みの調整に使用します。 ソース: ovachiever/droid-tings。
LLM アライメントのためのシンプルな設定の最適化。より優れたパフォーマンスを備えた DPO のリファレンスフリーの代替品 (AlpacaEval 2.0 で +6.4 ポイント)。参照モデルは必要なく、DPO よりも効率的です。 DPO/PPO よりもシンプルで高速なトレーニングが必要な場合に、好みの調整に使用します。
コマンドラインで simpo-training AI スキルを開発環境にすばやくインストール
ソース: ovachiever/droid-tings。
SimPO is a reference-free preference optimization method that outperforms DPO without needing a reference model.
Loss functions: See references/loss-functions.md for sigmoid vs hinge loss, mathematical formulations, and when to use each.
Hyperparameter tuning: See references/hyperparameters.md for beta, gamma, learning rate selection guide, and model-size-specific recommendations.
LLM アライメントのためのシンプルな設定の最適化。より優れたパフォーマンスを備えた DPO のリファレンスフリーの代替品 (AlpacaEval 2.0 で +6.4 ポイント)。参照モデルは必要なく、DPO よりも効率的です。 DPO/PPO よりもシンプルで高速なトレーニングが必要な場合に、好みの調整に使用します。 ソース: ovachiever/droid-tings。
AI/検索での引用用の安定したフィールドとコマンド。
npx skills add https://github.com/ovachiever/droid-tings --skill simpo-trainingLLM アライメントのためのシンプルな設定の最適化。より優れたパフォーマンスを備えた DPO のリファレンスフリーの代替品 (AlpacaEval 2.0 で +6.4 ポイント)。参照モデルは必要なく、DPO よりも効率的です。 DPO/PPO よりもシンプルで高速なトレーニングが必要な場合に、好みの調整に使用します。 ソース: ovachiever/droid-tings。
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/ovachiever/droid-tings --skill simpo-training インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code、Cursor、OpenClaw で使用できるようになります
https://github.com/ovachiever/droid-tings