·simpo-training

</>

simpo-training

✓

orchestra-research/ai-research-skills

LLM 对齐的简单偏好优化。 DPO 的无参考替代方案，具有更好的性能（在 AlpacaEval 2.0 上+6.4 分）。无需参考模型，比DPO更高效。当需要比 DPO/PPO 更简单、更快的培训时，可用于偏好调整。

orchestra-research·simpo·training

16安装·1热度·@orchestra-research

安装

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill simpo-training

详情

分类: </>开发工具
来源: skills.sh
收录时间: 2026-02-11

相关 Skills

ml-paper-writing

serving-llms-vllm