·openrlhf-training

</>

openrlhf-training

✓

orchestra-research/ai-research-skills

具有 Ray+vLLM 加速功能的高性能 RLHF 框架。用于大型模型（7B-70B+）的PPO、GRPO、RLOO、DPO训练。基于 Ray、vLLM、ZeRO-3 构建。比 DeepSpeedChat 快 2 倍，具有分布式架构和 GPU 资源共享。

orchestra-research·openrlhf·training

15安装·0热度·@orchestra-research

安装

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training

详情

分类: </>开发工具
来源: skills.sh
收录时间: 2026-02-11

相关 Skills

ml-paper-writing

serving-llms-vllm