·fine-tuning-with-trl

</>

fine-tuning-with-trl

✓

ovachiever/droid-tings

使用強化學習對 LLM 進行微調，TRL - SFT 用於指令調整，DPO 用於偏好調整，PPO/GRPO 用於獎勵最佳化，以及獎勵模型訓練。在需要 RLHF 時使用，根據偏好調整模型，或根據人類回饋進行訓練。與 HuggingFace 變形金剛一起使用。

ovachiever·fine·tuning·with·trl

28安裝·0熱度·@ovachiever

安裝

$npx skills add https://github.com/ovachiever/droid-tings --skill fine-tuning-with-trl

詳情

分類: </>開發工具
來源: skills.sh
收錄時間: 2026-03-03

相關 Skills

security-auditor

react-hook-form-zod

nextjs-shadcn-builder

deep-reading-analyst

react-native-expo

threejs-graphics-optimizer