¿Qué es simpo-training?
Optimización de preferencias simple para la alineación LLM. Alternativa sin referencias a DPO con mejor rendimiento (+6,4 puntos en AlpacaEval 2.0). No se necesita ningún modelo de referencia, más eficiente que DPO. Úselo para alinear preferencias cuando desee una capacitación más simple y rápida que DPO/PPO. Fuente: ovachiever/droid-tings.