·rlhf

</>

rlhf

✓

itsmostafa/llm-engineering-skills

言語モデルを調整するためのヒューマンフィードバックからの強化学習 (RLHF) について理解します。嗜好データ、報酬モデリング、ポリシーの最適化、または DPO などの直接調整アルゴリズムについて学習するときに使用します。

itsmostafa·rlhf

4インストール·0トレンド·@itsmostafa

インストール

$npx skills add https://github.com/itsmostafa/llm-engineering-skills --skill rlhf

詳細

カテゴリ: </>開発ツール
ソース: skills.sh
初回登録: 2026-02-11

関連 Skills

6 インストール

5 インストール

context-engineering

4 インストール

4 インストール

4 インストール

4 インストール