ما هي fine-tuning-with-trl؟
قم بضبط LLMs باستخدام التعلم المعزز مع TRL - SFT لضبط التعليمات، وDPO لمحاذاة التفضيلات، وPPO/GRPO لتحسين المكافأة، والتدريب على نموذج المكافأة. استخدمه عند الحاجة إلى RLHF، أو قم بمواءمة النموذج مع التفضيلات، أو تدرب من التعليقات البشرية. يعمل مع محولات الوجه المعانقة. المصدر: ovachiever/droid-tings.