model_finetuning
✓TRL による強化学習を使用して LLM を微調整します。命令調整には SFT、好みの調整には DPO、報酬の最適化には PPO/GRPO、報酬モデルのトレーニングに使用します。 RLHF が必要な場合に使用し、モデルを好みに合わせて調整するか、人間のフィードバックからトレーニングします。ハギングフェイストランスフォーマーと連携します。
SKILL.md
TRL provides post-training methods for aligning language models with human preferences.
Workflow 1: Full RLHF pipeline (SFT → Reward Model → PPO)
SFT training guide: See references/sft-training.md for dataset formats, chat templates, packing strategies, and multi-GPU training.
TRL による強化学習を使用して LLM を微調整します。命令調整には SFT、好みの調整には DPO、報酬の最適化には PPO/GRPO、報酬モデルのトレーニングに使用します。 RLHF が必要な場合に使用し、モデルを好みに合わせて調整するか、人間のフィードバックからトレーニングします。ハギングフェイストランスフォーマーと連携します。 ソース: vuralserhat86/antigravity-agentic-skills。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/vuralserhat86/antigravity-agentic-skills --skill model_finetuning- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
model_finetuning とは?
TRL による強化学習を使用して LLM を微調整します。命令調整には SFT、好みの調整には DPO、報酬の最適化には PPO/GRPO、報酬モデルのトレーニングに使用します。 RLHF が必要な場合に使用し、モデルを好みに合わせて調整するか、人間のフィードバックからトレーニングします。ハギングフェイストランスフォーマーと連携します。 ソース: vuralserhat86/antigravity-agentic-skills。
model_finetuning のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/vuralserhat86/antigravity-agentic-skills --skill model_finetuning インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/vuralserhat86/antigravity-agentic-skills
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-01