·openrlhf-training
</>

openrlhf-training

Высокопроизводительная платформа RLHF с ускорением Ray+vLLM. Используется для обучения PPO, GRPO, RLOO, DPO больших моделей (7B-70B+). Построен на базе Ray, vLLM, ZeRO-3. В 2 раза быстрее, чем DeepSpeedChat, благодаря распределенной архитектуре и совместному использованию ресурсов графического процессора.

28Установки·0Тренд·@ovachiever

Установка

$npx skills add https://github.com/ovachiever/droid-tings --skill openrlhf-training

Как установить openrlhf-training

Быстро установите AI-навык openrlhf-training в вашу среду разработки через командную строку

  1. Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
  2. Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/ovachiever/droid-tings --skill openrlhf-training
  3. Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Источник: ovachiever/droid-tings.

OpenRLHF is a Ray-based RLHF framework optimized for distributed training with vLLM inference acceleration.

Workflow 1: Full RLHF pipeline (SFT → Reward Model → PPO)

Hybrid Engine GPU sharing: See references/hybrid-engine.md for vLLM sleep mode, DeepSpeed sleep mode, and optimal node allocation.

Высокопроизводительная платформа RLHF с ускорением Ray+vLLM. Используется для обучения PPO, GRPO, RLOO, DPO больших моделей (7B-70B+). Построен на базе Ray, vLLM, ZeRO-3. В 2 раза быстрее, чем DeepSpeedChat, благодаря распределенной архитектуре и совместному использованию ресурсов графического процессора. Источник: ovachiever/droid-tings.

Факты (для цитирования)

Стабильные поля и команды для ссылок в AI/поиске.

Команда установки
npx skills add https://github.com/ovachiever/droid-tings --skill openrlhf-training
Источник
ovachiever/droid-tings
Категория
</>Разработка
Проверено
Впервые замечено
2026-03-03
Обновлено
2026-03-10

Browse more skills from ovachiever/droid-tings

Короткие ответы

Что такое openrlhf-training?

Высокопроизводительная платформа RLHF с ускорением Ray+vLLM. Используется для обучения PPO, GRPO, RLOO, DPO больших моделей (7B-70B+). Построен на базе Ray, vLLM, ZeRO-3. В 2 раза быстрее, чем DeepSpeedChat, благодаря распределенной архитектуре и совместному использованию ресурсов графического процессора. Источник: ovachiever/droid-tings.

Как установить openrlhf-training?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/ovachiever/droid-tings --skill openrlhf-training После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/ovachiever/droid-tings