fine-tuning-with-trl
✓TRL による強化学習を使用して LLM を微調整します。命令調整には SFT、好みの調整には DPO、報酬の最適化には PPO/GRPO、報酬モデルのトレーニングに使用します。 RLHF が必要な場合に使用したり、モデルを好みに合わせたり、人間のフィードバックからトレーニングしたりできます。ハギングフェイストランスフォーマーと連携します。
SKILL.md
TRL provides post-training methods for aligning language models with human preferences.
Workflow 1: Full RLHF pipeline (SFT → Reward Model → PPO)
SFT training guide: See references/sft-training.md for dataset formats, chat templates, packing strategies, and multi-GPU training.
TRL による強化学習を使用して LLM を微調整します。命令調整には SFT、好みの調整には DPO、報酬の最適化には PPO/GRPO、報酬モデルのトレーニングに使用します。 RLHF が必要な場合に使用したり、モデルを好みに合わせたり、人間のフィードバックからトレーニングしたりできます。ハギングフェイストランスフォーマーと連携します。 ソース: orchestra-research/ai-research-skills。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/orchestra-research/ai-research-skills --skill fine-tuning-with-trl- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-11
- 更新日
- 2026-02-18
クイックアンサー
fine-tuning-with-trl とは?
TRL による強化学習を使用して LLM を微調整します。命令調整には SFT、好みの調整には DPO、報酬の最適化には PPO/GRPO、報酬モデルのトレーニングに使用します。 RLHF が必要な場合に使用したり、モデルを好みに合わせたり、人間のフィードバックからトレーニングしたりできます。ハギングフェイストランスフォーマーと連携します。 ソース: orchestra-research/ai-research-skills。
fine-tuning-with-trl のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/orchestra-research/ai-research-skills --skill fine-tuning-with-trl インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/orchestra-research/ai-research-skills
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-11