·simpo-training
</>

simpo-training

Einfache Präferenzoptimierung für die LLM-Ausrichtung. Referenzfreie Alternative zu DPO mit besserer Leistung (+6,4 Punkte bei AlpacaEval 2.0). Kein Referenzmodell erforderlich, effizienter als DPO. Verwenden Sie diese Option zur Präferenzausrichtung, wenn Sie ein einfacheres und schnelleres Training als DPO/PPO wünschen.

27Installationen·0Trend·@ovachiever

Installation

$npx skills add https://github.com/ovachiever/droid-tings --skill simpo-training

So installieren Sie simpo-training

Installieren Sie den KI-Skill simpo-training schnell in Ihrer Entwicklungsumgebung über die Kommandozeile

  1. Terminal öffnen: Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.)
  2. Installationsbefehl ausführen: Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/ovachiever/droid-tings --skill simpo-training
  3. Installation überprüfen: Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code, Cursor oder OpenClaw

Quelle: ovachiever/droid-tings.

SimPO is a reference-free preference optimization method that outperforms DPO without needing a reference model.

Loss functions: See references/loss-functions.md for sigmoid vs hinge loss, mathematical formulations, and when to use each.

Hyperparameter tuning: See references/hyperparameters.md for beta, gamma, learning rate selection guide, and model-size-specific recommendations.

Einfache Präferenzoptimierung für die LLM-Ausrichtung. Referenzfreie Alternative zu DPO mit besserer Leistung (+6,4 Punkte bei AlpacaEval 2.0). Kein Referenzmodell erforderlich, effizienter als DPO. Verwenden Sie diese Option zur Präferenzausrichtung, wenn Sie ein einfacheres und schnelleres Training als DPO/PPO wünschen. Quelle: ovachiever/droid-tings.

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/ovachiever/droid-tings --skill simpo-training
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-03-03
Aktualisiert
2026-03-10

Browse more skills from ovachiever/droid-tings

Schnelle Antworten

Was ist simpo-training?

Einfache Präferenzoptimierung für die LLM-Ausrichtung. Referenzfreie Alternative zu DPO mit besserer Leistung (+6,4 Punkte bei AlpacaEval 2.0). Kein Referenzmodell erforderlich, effizienter als DPO. Verwenden Sie diese Option zur Präferenzausrichtung, wenn Sie ein einfacheres und schnelleres Training als DPO/PPO wünschen. Quelle: ovachiever/droid-tings.

Wie installiere ich simpo-training?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/ovachiever/droid-tings --skill simpo-training Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code, Cursor oder OpenClaw

Wo ist das Quell-Repository?

https://github.com/ovachiever/droid-tings