·simpo-training
</>

simpo-training

orchestra-research/ai-research-skills

Einfache Präferenzoptimierung für die LLM-Ausrichtung. Referenzfreie Alternative zu DPO mit besserer Leistung (+6,4 Punkte bei AlpacaEval 2.0). Kein Referenzmodell erforderlich, effizienter als DPO. Verwenden Sie diese Option zur Präferenzausrichtung, wenn Sie ein einfacheres und schnelleres Training als DPO/PPO wünschen.

16Installationen·1Trend·@orchestra-research

Installation

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill simpo-training

SKILL.md

SimPO is a reference-free preference optimization method that outperforms DPO without needing a reference model.

Loss functions: See references/loss-functions.md for sigmoid vs hinge loss, mathematical formulations, and when to use each.

Hyperparameter tuning: See references/hyperparameters.md for beta, gamma, learning rate selection guide, and model-size-specific recommendations.

Einfache Präferenzoptimierung für die LLM-Ausrichtung. Referenzfreie Alternative zu DPO mit besserer Leistung (+6,4 Punkte bei AlpacaEval 2.0). Kein Referenzmodell erforderlich, effizienter als DPO. Verwenden Sie diese Option zur Präferenzausrichtung, wenn Sie ein einfacheres und schnelleres Training als DPO/PPO wünschen. Quelle: orchestra-research/ai-research-skills.

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/orchestra-research/ai-research-skills --skill simpo-training
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-02-11
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist simpo-training?

Einfache Präferenzoptimierung für die LLM-Ausrichtung. Referenzfreie Alternative zu DPO mit besserer Leistung (+6,4 Punkte bei AlpacaEval 2.0). Kein Referenzmodell erforderlich, effizienter als DPO. Verwenden Sie diese Option zur Präferenzausrichtung, wenn Sie ein einfacheres und schnelleres Training als DPO/PPO wünschen. Quelle: orchestra-research/ai-research-skills.

Wie installiere ich simpo-training?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/orchestra-research/ai-research-skills --skill simpo-training Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/orchestra-research/ai-research-skills