·rlhf

</>

rlhf

✓

itsmostafa/llm-engineering-skills

了解人类反馈中的强化学习 (RLHF)，以调整语言模型。在学习偏好数据、奖励建模、策略优化或直接对齐算法（如 DPO）时使用。

itsmostafa·rlhf

4安装·0热度·@itsmostafa

安装

$npx skills add https://github.com/itsmostafa/llm-engineering-skills --skill rlhf

详情

分类: </>开发工具
来源: skills.sh
收录时间: 2026-02-11

相关 Skills

context-engineering