Что такое openrlhf-training?
Высокопроизводительная платформа RLHF с ускорением Ray+vLLM. Используется для обучения PPO, GRPO, RLOO, DPO больших моделей (7B-70B+). Построен на базе Ray, vLLM, ZeRO-3. В 2 раза быстрее, чем DeepSpeedChat, благодаря распределенной архитектуре и совместному использованию ресурсов графического процессора. Источник: ovachiever/droid-tings.