speculative-decoding
✓Accélérez l’inférence LLM à l’aide du décodage spéculatif, des têtes multiples Medusa et des techniques de décodage anticipé. À utiliser pour optimiser la vitesse d'inférence (accélération de 1,5 à 3,6 fois), réduire la latence pour les applications en temps réel ou déployer des modèles avec un calcul limité. Couvre les projets de modèles, l'attention basée sur les arbres, l'itération Jacobi, la génération de jetons parallèles et les stratégies de déploiement en production.
Installation
SKILL.md
Key Techniques: Draft model speculative decoding, Medusa (multiple heads), Lookahead Decoding (Jacobi iteration)
Papers: Medusa (arXiv 2401.10774), Lookahead Decoding (ICML 2024), Speculative Decoding Survey (ACL 2024)
Idea: Use small draft model to generate candidates, large target model to verify in parallel.
Accélérez l’inférence LLM à l’aide du décodage spéculatif, des têtes multiples Medusa et des techniques de décodage anticipé. À utiliser pour optimiser la vitesse d'inférence (accélération de 1,5 à 3,6 fois), réduire la latence pour les applications en temps réel ou déployer des modèles avec un calcul limité. Couvre les projets de modèles, l'attention basée sur les arbres, l'itération Jacobi, la génération de jetons parallèles et les stratégies de déploiement en production. Source : ovachiever/droid-tings.
Faits (prêts à citer)
Champs et commandes stables pour les citations IA/recherche.
- Commande d'installation
npx skills add https://github.com/ovachiever/droid-tings --skill speculative-decoding- Source
- ovachiever/droid-tings
- Catégorie
- </>Développement
- Vérifié
- ✓
- Première apparition
- 2026-02-01
- Mis à jour
- 2026-02-18
Réponses rapides
Qu'est-ce que speculative-decoding ?
Accélérez l’inférence LLM à l’aide du décodage spéculatif, des têtes multiples Medusa et des techniques de décodage anticipé. À utiliser pour optimiser la vitesse d'inférence (accélération de 1,5 à 3,6 fois), réduire la latence pour les applications en temps réel ou déployer des modèles avec un calcul limité. Couvre les projets de modèles, l'attention basée sur les arbres, l'itération Jacobi, la génération de jetons parallèles et les stratégies de déploiement en production. Source : ovachiever/droid-tings.
Comment installer speculative-decoding ?
Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/ovachiever/droid-tings --skill speculative-decoding Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor
Où se trouve le dépôt source ?
https://github.com/ovachiever/droid-tings
Détails
- Catégorie
- </>Développement
- Source
- skills.sh
- Première apparition
- 2026-02-01