·fine-tuning-with-trl

</>

fine-tuning-with-trl

✓

orchestra-research/ai-research-skills

使用强化学习对法学硕士进行微调，TRL - SFT 用于指令调整，DPO 用于偏好调整，PPO/GRPO 用于奖励优化，以及奖励模型训练。在需要 RLHF 时使用，根据偏好调整模型，或根据人类反馈进行训练。与 HuggingFace 变形金刚一起使用。

orchestra-research·fine·tuning·with·trl

14安装·0热度·@orchestra-research

安装

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill fine-tuning-with-trl

详情

分类: </>开发工具
来源: skills.sh
收录时间: 2026-02-11

相关 Skills

ml-paper-writing

serving-llms-vllm