speculative-decoding
✓Beschleunigen Sie die LLM-Inferenz durch spekulative Dekodierung, Medusa-Mehrfachköpfe und Lookahead-Dekodierungstechniken. Verwenden Sie diese Option, wenn Sie die Inferenzgeschwindigkeit optimieren (1,5- bis 3,6-fache Beschleunigung), die Latenz für Echtzeitanwendungen reduzieren oder Modelle mit begrenzter Rechenleistung bereitstellen. Behandelt Entwurfsmodelle, baumbasierte Aufmerksamkeit, Jacobi-Iteration, parallele Token-Generierung und Produktionsbereitstellungsstrategien.
Installation
SKILL.md
Key Techniques: Draft model speculative decoding, Medusa (multiple heads), Lookahead Decoding (Jacobi iteration)
Papers: Medusa (arXiv 2401.10774), Lookahead Decoding (ICML 2024), Speculative Decoding Survey (ACL 2024)
Idea: Use small draft model to generate candidates, large target model to verify in parallel.
Beschleunigen Sie die LLM-Inferenz durch spekulative Dekodierung, Medusa-Mehrfachköpfe und Lookahead-Dekodierungstechniken. Verwenden Sie diese Option, wenn Sie die Inferenzgeschwindigkeit optimieren (1,5- bis 3,6-fache Beschleunigung), die Latenz für Echtzeitanwendungen reduzieren oder Modelle mit begrenzter Rechenleistung bereitstellen. Behandelt Entwurfsmodelle, baumbasierte Aufmerksamkeit, Jacobi-Iteration, parallele Token-Generierung und Produktionsbereitstellungsstrategien. Quelle: orchestra-research/ai-research-skills.
Fakten (zitierbereit)
Stabile Felder und Befehle für KI/Such-Zitate.
- Installationsbefehl
npx skills add https://github.com/orchestra-research/ai-research-skills --skill speculative-decoding- Kategorie
- </>Entwicklung
- Verifiziert
- ✓
- Erstes Auftreten
- 2026-02-11
- Aktualisiert
- 2026-02-18
Schnelle Antworten
Was ist speculative-decoding?
Beschleunigen Sie die LLM-Inferenz durch spekulative Dekodierung, Medusa-Mehrfachköpfe und Lookahead-Dekodierungstechniken. Verwenden Sie diese Option, wenn Sie die Inferenzgeschwindigkeit optimieren (1,5- bis 3,6-fache Beschleunigung), die Latenz für Echtzeitanwendungen reduzieren oder Modelle mit begrenzter Rechenleistung bereitstellen. Behandelt Entwurfsmodelle, baumbasierte Aufmerksamkeit, Jacobi-Iteration, parallele Token-Generierung und Produktionsbereitstellungsstrategien. Quelle: orchestra-research/ai-research-skills.
Wie installiere ich speculative-decoding?
Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/orchestra-research/ai-research-skills --skill speculative-decoding Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor
Wo ist das Quell-Repository?
https://github.com/orchestra-research/ai-research-skills
Details
- Kategorie
- </>Entwicklung
- Quelle
- skills.sh
- Erstes Auftreten
- 2026-02-11