simpo-training

Name: simpo-training
Author: orchestra-research

✓

orchestra-research/ai-research-skills

تحسين التفضيلات البسيطة لمحاذاة LLM. بديل خالٍ من المراجع لـ DPO مع أداء أفضل (+6.4 نقطة في AlpacaEval 2.0). لا حاجة إلى نموذج مرجعي، فهو أكثر كفاءة من DPO. يُستخدم لمحاذاة التفضيلات عندما تريد تدريبًا أبسط وأسرع من DPO/PPO.

orchestra-research·simpo·training

40التثبيتات·2الرائج·@orchestra-research