model_finetuning

Name: model_finetuning
Author: vuralserhat86

✓

vuralserhat86/antigravity-agentic-skills

قم بضبط LLMs باستخدام التعلم المعزز مع TRL - SFT لضبط التعليمات، وDPO لمحاذاة التفضيلات، وPPO/GRPO لتحسين المكافأة، والتدريب على نموذج المكافأة. استخدمه عند الحاجة إلى RLHF، أو قم بمواءمة النموذج مع التفضيلات، أو تدرب من التعليقات البشرية. يعمل مع محولات الوجه المعانقة.

vuralserhat86·model·finetuning

11التثبيتات·0الرائج·@vuralserhat86