Che cos'è simpo-training?
Semplice ottimizzazione delle preferenze per l'allineamento LLM. Alternativa senza riferimenti a DPO con prestazioni migliori (+6,4 punti su AlpacaEval 2.0). Non è necessario alcun modello di riferimento, più efficiente del DPO. Da utilizzare per l'allineamento delle preferenze quando si desidera una formazione più semplice e veloce rispetto a DPO/PPO. Fonte: orchestra-research/ai-research-skills.