fine-tuning-with-trl

Name: fine-tuning-with-trl
Author: ovachiever

✓

ovachiever/droid-tings

TRL による強化学習を使用して LLM を微調整します。命令調整には SFT、好みの調整には DPO、報酬の最適化には PPO/GRPO、報酬モデルのトレーニングに使用します。 RLHF が必要な場合に使用したり、モデルを好みに合わせたり、人間のフィードバックからトレーニングしたりできます。ハギングフェイストランスフォーマーと連携します。

ovachiever·fine·tuning·with·trl

28インストール·0トレンド·@ovachiever

インストール

$npx skills add https://github.com/ovachiever/droid-tings --skill fine-tuning-with-trl

詳細

カテゴリ: </>開発ツール
ソース: skills.sh
初回登録: 2026-03-03

fine-tuning-with-trl

インストール

fine-tuning-with-trl のインストール方法

SKILL.md

引用可能な情報

クイックアンサー

fine-tuning-with-trl とは？

fine-tuning-with-trl のインストール方法は？

ソースリポジトリはどこですか？

詳細

関連 Skills