simpo-training

Name: simpo-training
Author: ovachiever

✓

ovachiever/droid-tings

Semplice ottimizzazione delle preferenze per l'allineamento LLM. Alternativa senza riferimenti a DPO con prestazioni migliori (+6,4 punti su AlpacaEval 2.0). Non è necessario alcun modello di riferimento, più efficiente del DPO. Da utilizzare per l'allineamento delle preferenze quando si desidera una formazione più semplice e veloce rispetto a DPO/PPO.

ovachiever·simpo·training

27Installazioni·0Tendenza·@ovachiever