·openrlhf-training

</>

openrlhf-training

✓

ovachiever/droid-tings

具有 Ray+vLLM 加速功能的高性能 RLHF 框架。用於大型模型（7B-70B+）的PPO、GRPO、RLOO、DPO訓練。基于 Ray、vLLM、ZeRO-3 构建。比 DeepSpeedChat 快 2 倍，具有分散式架構和 GPU 資源共享。

ovachiever·openrlhf·training

28安裝·0熱度·@ovachiever

安裝

$npx skills add https://github.com/ovachiever/droid-tings --skill openrlhf-training

詳情

分類: </>開發工具
來源: skills.sh
收錄時間: 2026-03-03

相關 Skills

security-auditor

react-hook-form-zod

nextjs-shadcn-builder

deep-reading-analyst

react-native-expo

threejs-graphics-optimizer