كيف أثبّت fine-tuning-with-trl؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/ovachiever/droid-tings --skill fine-tuning-with-trl بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

·fine-tuning-with-trl

</>

fine-tuning-with-trl

Name: fine-tuning-with-trl
Author: ovachiever

✓

ovachiever/droid-tings

قم بضبط LLMs باستخدام التعلم المعزز مع TRL - SFT لضبط التعليمات، وDPO لمحاذاة التفضيلات، وPPO/GRPO لتحسين المكافأة، والتدريب على نموذج المكافأة. استخدمه عند الحاجة إلى RLHF، أو قم بمواءمة النموذج مع التفضيلات، أو تدرب من التعليقات البشرية. يعمل مع محولات الوجه المعانقة.

ovachiever·fine·tuning·with·trl

28التثبيتات·0الرائج·@ovachiever