·rlhf

</>

rlhf

✓

itsmostafa/llm-engineering-skills

了解人類回饋中的強化學習 (RLHF)，以調整語言模型。在學習偏好資料、獎勵建模、策略最佳化或直接對齊演算法（如 DPO）時使用。

itsmostafa·rlhf

4安裝·0熱度·@itsmostafa

安裝

$npx skills add https://github.com/itsmostafa/llm-engineering-skills --skill rlhf

詳情

分類: </>開發工具
來源: skills.sh
收錄時間: 2026-02-11

相關 Skills

context-engineering