openrlhf-training

Name: openrlhf-training
Author: orchestra-research

✓

orchestra-research/ai-research-skills

إطار عمل RLHF عالي الأداء مع تسريع Ray+vLLM. يستخدم لتدريب PPO وGRPO وRLOO وDPO للنماذج الكبيرة (7B-70B+). بنيت على راي، vLLM، زيرو-3. أسرع مرتين من DeepSpeedChat مع البنية الموزعة ومشاركة موارد وحدة معالجة الرسومات.

orchestra-research·openrlhf·training

39التثبيتات·2الرائج·@orchestra-research