grpo-rl-training

Name: grpo-rl-training
Author: ovachiever

✓

ovachiever/droid-tingsGitHub: ovachiever/droid-tings المصدر: ovachiever/droid-tings

إرشادات الخبراء لضبط GRPO/RL باستخدام TRL للاستدلال والتدريب النموذجي الخاص بالمهمة

ovachiever·grpo·rl·training

26التثبيتات·0الرائج·@ovachiever

التثبيت

GitHub: ovachiever/droid-tings

$npx skills add https://github.com/ovachiever/droid-tings --skill grpo-rl-training

كيفية تثبيت grpo-rl-training

ثبّت مهارة الذكاء الاصطناعي grpo-rl-training بسرعة في بيئة التطوير لديك عبر سطر الأوامر

افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/ovachiever/droid-tings --skill grpo-rl-training
تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: ovachiever/droid-tings.

SKILL.md

عرض النص الخام

Expert-level guidance for implementing Group Relative Policy Optimization (GRPO) using the Transformer Reinforcement Learning (TRL) library. This skill provides battle-tested patterns, critical insights, and production-ready workflows for fine-tuning language models with custom reward functions.

Critical Insight: Combine 3-5 reward functions for robust training. Order matters less than diversity of signals.

إرشادات الخبراء لضبط GRPO/RL باستخدام TRL للاستدلال والتدريب النموذجي الخاص بالمهمة المصدر: ovachiever/droid-tings.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت: npx skills add https://github.com/ovachiever/droid-tings --skill grpo-rl-training
المصدر: ovachiever/droid-tings
الفئة: </>أدوات التطوير
موثق: ✓
أول ظهور: 2026-02-01
آخر تحديث: 2026-03-10
الرابط: https://www.learn-skills.dev/ar/skills/ovachiever/droid-tings/grpo-rl-training

Browse more skills from ovachiever/droid-tings

إجابات سريعة

ما هي grpo-rl-training؟

إرشادات الخبراء لضبط GRPO/RL باستخدام TRL للاستدلال والتدريب النموذجي الخاص بالمهمة المصدر: ovachiever/droid-tings.

كيف أثبّت grpo-rl-training؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/ovachiever/droid-tings --skill grpo-rl-training بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw