openrlhf-training

Name: openrlhf-training
Author: orchestra-research

✓

Marco RLHF de alto rendimiento con aceleración Ray+vLLM. Uso para entrenamiento PPO, GRPO, RLOO, DPO de modelos grandes (7B-70B+). Construido sobre Ray, vLLM, ZeRO-3. 2 veces más rápido que DeepSpeedChat con arquitectura distribuida y uso compartido de recursos de GPU.

orchestra-research·openrlhf·training

15Instalaciones·0Tendencia·@orchestra-research