·fine-tuning-with-trl

</>

fine-tuning-with-trl

✓

ovachiever/droid-tings

使用强化学习对 LLM 进行微调，TRL - SFT 用于指令调整，DPO 用于偏好调整，PPO/GRPO 用于奖励优化，以及奖励模型训练。在需要 RLHF 时使用，根据偏好调整模型，或根据人类反馈进行训练。与 HuggingFace 变形金刚一起使用。

ovachiever·fine·tuning·with·trl

28安装·0热度·@ovachiever

安装

$npx skills add https://github.com/ovachiever/droid-tings --skill fine-tuning-with-trl

详情

分类: </>开发工具
来源: skills.sh
收录时间: 2026-03-03

相关 Skills

security-auditor

react-hook-form-zod

nextjs-shadcn-builder

deep-reading-analyst

react-native-expo

threejs-graphics-optimizer