·speculative-decoding
</>

speculative-decoding

ovachiever/droid-tings

Beschleunigen Sie die LLM-Inferenz durch spekulative Dekodierung, Medusa-Mehrfachköpfe und Lookahead-Dekodierungstechniken. Verwenden Sie diese Option, wenn Sie die Inferenzgeschwindigkeit optimieren (1,5- bis 3,6-fache Beschleunigung), die Latenz für Echtzeitanwendungen reduzieren oder Modelle mit begrenzter Rechenleistung bereitstellen. Behandelt Entwurfsmodelle, baumbasierte Aufmerksamkeit, Jacobi-Iteration, parallele Token-Generierung und Produktionsbereitstellungsstrategien.

21Installationen·0Trend·@ovachiever

Installation

$npx skills add https://github.com/ovachiever/droid-tings --skill speculative-decoding

SKILL.md

Key Techniques: Draft model speculative decoding, Medusa (multiple heads), Lookahead Decoding (Jacobi iteration)

Papers: Medusa (arXiv 2401.10774), Lookahead Decoding (ICML 2024), Speculative Decoding Survey (ACL 2024)

Idea: Use small draft model to generate candidates, large target model to verify in parallel.

Beschleunigen Sie die LLM-Inferenz durch spekulative Dekodierung, Medusa-Mehrfachköpfe und Lookahead-Dekodierungstechniken. Verwenden Sie diese Option, wenn Sie die Inferenzgeschwindigkeit optimieren (1,5- bis 3,6-fache Beschleunigung), die Latenz für Echtzeitanwendungen reduzieren oder Modelle mit begrenzter Rechenleistung bereitstellen. Behandelt Entwurfsmodelle, baumbasierte Aufmerksamkeit, Jacobi-Iteration, parallele Token-Generierung und Produktionsbereitstellungsstrategien. Quelle: ovachiever/droid-tings.

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/ovachiever/droid-tings --skill speculative-decoding
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-02-01
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist speculative-decoding?

Beschleunigen Sie die LLM-Inferenz durch spekulative Dekodierung, Medusa-Mehrfachköpfe und Lookahead-Dekodierungstechniken. Verwenden Sie diese Option, wenn Sie die Inferenzgeschwindigkeit optimieren (1,5- bis 3,6-fache Beschleunigung), die Latenz für Echtzeitanwendungen reduzieren oder Modelle mit begrenzter Rechenleistung bereitstellen. Behandelt Entwurfsmodelle, baumbasierte Aufmerksamkeit, Jacobi-Iteration, parallele Token-Generierung und Produktionsbereitstellungsstrategien. Quelle: ovachiever/droid-tings.

Wie installiere ich speculative-decoding?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/ovachiever/droid-tings --skill speculative-decoding Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/ovachiever/droid-tings