·openrlhf-training
</>

openrlhf-training

Framework RLHF ad alte prestazioni con accelerazione Ray+vLLM. Utilizzare per l'addestramento PPO, GRPO, RLOO, DPO di modelli di grandi dimensioni (7B-70B+). Costruito su Ray, vLLM, ZeRO-3. 2 volte più veloce di DeepSpeedChat con architettura distribuita e condivisione delle risorse GPU.

38Installazioni·1Tendenza·@orchestra-research

Installazione

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training

Come installare openrlhf-training

Installa rapidamente la skill AI openrlhf-training nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: orchestra-research/ai-research-skills.

OpenRLHF is a Ray-based RLHF framework optimized for distributed training with vLLM inference acceleration.

Workflow 1: Full RLHF pipeline (SFT → Reward Model → PPO)

Hybrid Engine GPU sharing: See references/hybrid-engine.md for vLLM sleep mode, DeepSpeed sleep mode, and optimal node allocation.

Framework RLHF ad alte prestazioni con accelerazione Ray+vLLM. Utilizzare per l'addestramento PPO, GRPO, RLOO, DPO di modelli di grandi dimensioni (7B-70B+). Costruito su Ray, vLLM, ZeRO-3. 2 volte più veloce di DeepSpeedChat con architettura distribuita e condivisione delle risorse GPU. Fonte: orchestra-research/ai-research-skills.

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training
Categoria
</>Sviluppo
Verificato
Prima apparizione
2026-02-11
Aggiornato
2026-03-10

Browse more skills from orchestra-research/ai-research-skills

Risposte rapide

Che cos'è openrlhf-training?

Framework RLHF ad alte prestazioni con accelerazione Ray+vLLM. Utilizzare per l'addestramento PPO, GRPO, RLOO, DPO di modelli di grandi dimensioni (7B-70B+). Costruito su Ray, vLLM, ZeRO-3. 2 volte più veloce di DeepSpeedChat con architettura distribuita e condivisione delle risorse GPU. Fonte: orchestra-research/ai-research-skills.

Come installo openrlhf-training?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/orchestra-research/ai-research-skills