·fine-tuning-with-trl

</>

fine-tuning-with-trl

✓

orchestra-research/ai-research-skills

使用強化學習對法學碩士進行微調，TRL - SFT 用於指令調整，DPO 用於偏好調整，PPO/GRPO 用於獎勵優化，以及獎勵模型訓練。在需要 RLHF 時使用，根據偏好調整模型，或根據人類回饋進行訓練。與 HuggingFace 變形金剛一起使用。

orchestra-research·fine·tuning·with·trl

14安裝·0熱度·@orchestra-research

安裝

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill fine-tuning-with-trl

詳情

分類: </>開發工具
來源: skills.sh
收錄時間: 2026-02-11

相關 Skills

ml-paper-writing

serving-llms-vllm