·openrlhf-training
</>

openrlhf-training

إطار عمل RLHF عالي الأداء مع تسريع Ray+vLLM. يستخدم لتدريب PPO وGRPO وRLOO وDPO للنماذج الكبيرة (7B-70B+). بنيت على راي، vLLM، زيرو-3. أسرع مرتين من DeepSpeedChat مع البنية الموزعة ومشاركة موارد وحدة معالجة الرسومات.

39التثبيتات·2الرائج·@orchestra-research

التثبيت

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training

كيفية تثبيت openrlhf-training

ثبّت مهارة الذكاء الاصطناعي openrlhf-training بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: orchestra-research/ai-research-skills.

OpenRLHF is a Ray-based RLHF framework optimized for distributed training with vLLM inference acceleration.

Workflow 1: Full RLHF pipeline (SFT → Reward Model → PPO)

Hybrid Engine GPU sharing: See references/hybrid-engine.md for vLLM sleep mode, DeepSpeed sleep mode, and optimal node allocation.

إطار عمل RLHF عالي الأداء مع تسريع Ray+vLLM. يستخدم لتدريب PPO وGRPO وRLOO وDPO للنماذج الكبيرة (7B-70B+). بنيت على راي، vLLM، زيرو-3. أسرع مرتين من DeepSpeedChat مع البنية الموزعة ومشاركة موارد وحدة معالجة الرسومات. المصدر: orchestra-research/ai-research-skills.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training
الفئة
</>أدوات التطوير
موثق
أول ظهور
2026-02-11
آخر تحديث
2026-03-10

Browse more skills from orchestra-research/ai-research-skills

إجابات سريعة

ما هي openrlhf-training؟

إطار عمل RLHF عالي الأداء مع تسريع Ray+vLLM. يستخدم لتدريب PPO وGRPO وRLOO وDPO للنماذج الكبيرة (7B-70B+). بنيت على راي، vLLM، زيرو-3. أسرع مرتين من DeepSpeedChat مع البنية الموزعة ومشاركة موارد وحدة معالجة الرسومات. المصدر: orchestra-research/ai-research-skills.

كيف أثبّت openrlhf-training؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/orchestra-research/ai-research-skills --skill openrlhf-training بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/orchestra-research/ai-research-skills

التفاصيل

الفئة
</>أدوات التطوير
المصدر
skills.sh
أول ظهور
2026-02-11