Qu'est-ce que simpo-training ?
Optimisation simple des préférences pour l’alignement LLM. Alternative sans référence au DPO avec de meilleures performances (+6,4 points sur AlpacaEval 2.0). Aucun modèle de référence nécessaire, plus efficace que le DPO. À utiliser pour l'alignement des préférences lorsque vous souhaitez une formation plus simple et plus rapide que DPO/PPO. Source : ovachiever/droid-tings.