·openrlhf-training

</>

openrlhf-training

✓

orchestra-research/ai-research-skills

具有 Ray+vLLM 加速功能的高性能 RLHF 框架。用於大型模型（7B-70B+）的PPO、GRPO、RLOO、DPO訓練。基於 Ray、vLLM、ZeRO-3 建置。比 DeepSpeedChat 快 2 倍，具有分散式架構和 GPU 資源共享。

orchestra-research·openrlhf·training

15安裝·0熱度·@orchestra-research

安裝

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training

詳情

分類: </>開發工具
來源: skills.sh
收錄時間: 2026-02-11

相關 Skills

ml-paper-writing

serving-llms-vllm