ما هي openrlhf-training؟
إطار عمل RLHF عالي الأداء مع تسريع Ray+vLLM. يستخدم لتدريب PPO وGRPO وRLOO وDPO للنماذج الكبيرة (7B-70B+). بنيت على راي، vLLM، زيرو-3. أسرع مرتين من DeepSpeedChat مع البنية الموزعة ومشاركة موارد وحدة معالجة الرسومات. المصدر: orchestra-research/ai-research-skills.