·openrlhf-training
</>

openrlhf-training

orchestra-research/ai-research-skills

Ray+vLLM アクセラレーションを備えた高性能 RLHF フレームワーク。大規模モデル (7B-70B+) の PPO、GRPO、RLOO、DPO トレーニングに使用します。 Ray、vLLM、ZeRO-3 に基づいて構築されています。分散アーキテクチャと GPU リソース共有により、DeepSpeedChat よりも 2 倍高速です。

15インストール·0トレンド·@orchestra-research

インストール

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training

SKILL.md

OpenRLHF is a Ray-based RLHF framework optimized for distributed training with vLLM inference acceleration.

Workflow 1: Full RLHF pipeline (SFT → Reward Model → PPO)

Hybrid Engine GPU sharing: See references/hybrid-engine.md for vLLM sleep mode, DeepSpeed sleep mode, and optimal node allocation.

Ray+vLLM アクセラレーションを備えた高性能 RLHF フレームワーク。大規模モデル (7B-70B+) の PPO、GRPO、RLOO、DPO トレーニングに使用します。 Ray、vLLM、ZeRO-3 に基づいて構築されています。分散アーキテクチャと GPU リソース共有により、DeepSpeedChat よりも 2 倍高速です。 ソース: orchestra-research/ai-research-skills。

原文を見る

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training
カテゴリ
</>開発ツール
認証済み
初回登録
2026-02-11
更新日
2026-02-18

クイックアンサー

openrlhf-training とは?

Ray+vLLM アクセラレーションを備えた高性能 RLHF フレームワーク。大規模モデル (7B-70B+) の PPO、GRPO、RLOO、DPO トレーニングに使用します。 Ray、vLLM、ZeRO-3 に基づいて構築されています。分散アーキテクチャと GPU リソース共有により、DeepSpeedChat よりも 2 倍高速です。 ソース: orchestra-research/ai-research-skills。

openrlhf-training のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/orchestra-research/ai-research-skills