ما هي simpo-training؟
تحسين التفضيلات البسيطة لمحاذاة LLM. بديل خالٍ من المراجع لـ DPO مع أداء أفضل (+6.4 نقطة في AlpacaEval 2.0). لا حاجة إلى نموذج مرجعي، فهو أكثر كفاءة من DPO. يُستخدم لمحاذاة التفضيلات عندما تريد تدريبًا أبسط وأسرع من DPO/PPO. المصدر: orchestra-research/ai-research-skills.