Che cos'è openrlhf-training?
Framework RLHF ad alte prestazioni con accelerazione Ray+vLLM. Utilizzare per l'addestramento PPO, GRPO, RLOO, DPO di modelli di grandi dimensioni (7B-70B+). Costruito su Ray, vLLM, ZeRO-3. 2 volte più veloce di DeepSpeedChat con architettura distribuita e condivisione delle risorse GPU. Fonte: orchestra-research/ai-research-skills.