grpo-rl-training
✓推論およびタスク固有のモデル トレーニングのための TRL を使用した GRPO/RL 微調整のための専門家によるガイダンス
SKILL.md
Expert-level guidance for implementing Group Relative Policy Optimization (GRPO) using the Transformer Reinforcement Learning (TRL) library. This skill provides battle-tested patterns, critical insights, and production-ready workflows for fine-tuning language models with custom reward functions.
| Correctness | Verifiable tasks (math, code) | 2.0 (highest) | | Format | Strict structure enforcement | 0.5-1.0 | | Length | Encourage verbosity/conciseness | 0.1-0.5 | | Style | Penalize unwanted patterns | -0.5 to 0.5 |
Critical Insight: Combine 3-5 reward functions for robust training. Order matters less than diversity of signals.
推論およびタスク固有のモデル トレーニングのための TRL を使用した GRPO/RL 微調整のための専門家によるガイダンス ソース: ovachiever/droid-tings。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/ovachiever/droid-tings --skill grpo-rl-training- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
grpo-rl-training とは?
推論およびタスク固有のモデル トレーニングのための TRL を使用した GRPO/RL 微調整のための専門家によるガイダンス ソース: ovachiever/droid-tings。
grpo-rl-training のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/ovachiever/droid-tings --skill grpo-rl-training インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/ovachiever/droid-tings
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-01