simpo-training

Name: simpo-training
Author: orchestra-research

✓

Optimisation simple des préférences pour l’alignement LLM. Alternative sans référence au DPO avec de meilleures performances (+6,4 points sur AlpacaEval 2.0). Aucun modèle de référence nécessaire, plus efficace que le DPO. À utiliser pour l'alignement des préférences lorsque vous souhaitez une formation plus simple et plus rapide que DPO/PPO.

orchestra-research·simpo·training

17Installations·1Tendance·@orchestra-research