ما هي fine-tuning-with-trl؟
قم بضبط LLMs باستخدام التعلم المعزز مع TRL - SFT لضبط التعليمات، وDPO لمحاذاة التفضيلات، وPPO/GRPO لتحسين المكافأة، والتدريب على نموذج المكافأة. استخدمه عند الحاجة إلى RLHF، أو قم بمواءمة النموذج مع التفضيلات، أو تدرب من التعليقات البشرية. يعمل مع محولات HuggingFace. المصدر: orchestra-research/ai-research-skills.