·model_finetuning
</>

model_finetuning

قم بضبط LLMs باستخدام التعلم المعزز مع TRL - SFT لضبط التعليمات، وDPO لمحاذاة التفضيلات، وPPO/GRPO لتحسين المكافأة، والتدريب على نموذج المكافأة. استخدمه عند الحاجة إلى RLHF، أو قم بمواءمة النموذج مع التفضيلات، أو تدرب من التعليقات البشرية. يعمل مع محولات الوجه المعانقة.

11التثبيتات·0الرائج·@vuralserhat86

التثبيت

$npx skills add https://github.com/vuralserhat86/antigravity-agentic-skills --skill model_finetuning

كيفية تثبيت model_finetuning

ثبّت مهارة الذكاء الاصطناعي model_finetuning بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/vuralserhat86/antigravity-agentic-skills --skill model_finetuning
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: vuralserhat86/antigravity-agentic-skills.

TRL provides post-training methods for aligning language models with human preferences.

Workflow 1: Full RLHF pipeline (SFT → Reward Model → PPO)

SFT training guide: See references/sft-training.md for dataset formats, chat templates, packing strategies, and multi-GPU training.

قم بضبط LLMs باستخدام التعلم المعزز مع TRL - SFT لضبط التعليمات، وDPO لمحاذاة التفضيلات، وPPO/GRPO لتحسين المكافأة، والتدريب على نموذج المكافأة. استخدمه عند الحاجة إلى RLHF، أو قم بمواءمة النموذج مع التفضيلات، أو تدرب من التعليقات البشرية. يعمل مع محولات الوجه المعانقة. المصدر: vuralserhat86/antigravity-agentic-skills.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/vuralserhat86/antigravity-agentic-skills --skill model_finetuning
الفئة
</>أدوات التطوير
موثق
أول ظهور
2026-02-01
آخر تحديث
2026-03-10

Browse more skills from vuralserhat86/antigravity-agentic-skills

إجابات سريعة

ما هي model_finetuning؟

قم بضبط LLMs باستخدام التعلم المعزز مع TRL - SFT لضبط التعليمات، وDPO لمحاذاة التفضيلات، وPPO/GRPO لتحسين المكافأة، والتدريب على نموذج المكافأة. استخدمه عند الحاجة إلى RLHF، أو قم بمواءمة النموذج مع التفضيلات، أو تدرب من التعليقات البشرية. يعمل مع محولات الوجه المعانقة. المصدر: vuralserhat86/antigravity-agentic-skills.

كيف أثبّت model_finetuning؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/vuralserhat86/antigravity-agentic-skills --skill model_finetuning بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/vuralserhat86/antigravity-agentic-skills

التفاصيل

الفئة
</>أدوات التطوير
المصدر
skills.sh
أول ظهور
2026-02-01