openrlhf-training

Name: openrlhf-training
Author: orchestra-research

✓

orchestra-research/ai-research-skills

Framework RLHF ad alte prestazioni con accelerazione Ray+vLLM. Utilizzare per l'addestramento PPO, GRPO, RLOO, DPO di modelli di grandi dimensioni (7B-70B+). Costruito su Ray, vLLM, ZeRO-3. 2 volte più veloce di DeepSpeedChat con architettura distribuita e condivisione delle risorse GPU.

orchestra-research·openrlhf·training

38Installazioni·1Tendenza·@orchestra-research