Что такое simpo-training?
Простая оптимизация предпочтений для согласования LLM. Безреференсная альтернатива DPO с лучшей производительностью (+6,4 балла по AlpacaEval 2.0). Эталонная модель не требуется, она более эффективна, чем DPO. Используйте для согласования предпочтений, если хотите более простое и быстрое обучение, чем DPO/PPO. Источник: ovachiever/droid-tings.