·speculative-decoding
</>

speculative-decoding

ovachiever/droid-tings

Accélérez l’inférence LLM à l’aide du décodage spéculatif, des têtes multiples Medusa et des techniques de décodage anticipé. À utiliser pour optimiser la vitesse d'inférence (accélération de 1,5 à 3,6 fois), réduire la latence pour les applications en temps réel ou déployer des modèles avec un calcul limité. Couvre les projets de modèles, l'attention basée sur les arbres, l'itération Jacobi, la génération de jetons parallèles et les stratégies de déploiement en production.

21Installations·0Tendance·@ovachiever

Installation

$npx skills add https://github.com/ovachiever/droid-tings --skill speculative-decoding

SKILL.md

Key Techniques: Draft model speculative decoding, Medusa (multiple heads), Lookahead Decoding (Jacobi iteration)

Papers: Medusa (arXiv 2401.10774), Lookahead Decoding (ICML 2024), Speculative Decoding Survey (ACL 2024)

Idea: Use small draft model to generate candidates, large target model to verify in parallel.

Accélérez l’inférence LLM à l’aide du décodage spéculatif, des têtes multiples Medusa et des techniques de décodage anticipé. À utiliser pour optimiser la vitesse d'inférence (accélération de 1,5 à 3,6 fois), réduire la latence pour les applications en temps réel ou déployer des modèles avec un calcul limité. Couvre les projets de modèles, l'attention basée sur les arbres, l'itération Jacobi, la génération de jetons parallèles et les stratégies de déploiement en production. Source : ovachiever/droid-tings.

Voir l'original

Faits (prêts à citer)

Champs et commandes stables pour les citations IA/recherche.

Commande d'installation
npx skills add https://github.com/ovachiever/droid-tings --skill speculative-decoding
Catégorie
</>Développement
Vérifié
Première apparition
2026-02-01
Mis à jour
2026-02-18

Réponses rapides

Qu'est-ce que speculative-decoding ?

Accélérez l’inférence LLM à l’aide du décodage spéculatif, des têtes multiples Medusa et des techniques de décodage anticipé. À utiliser pour optimiser la vitesse d'inférence (accélération de 1,5 à 3,6 fois), réduire la latence pour les applications en temps réel ou déployer des modèles avec un calcul limité. Couvre les projets de modèles, l'attention basée sur les arbres, l'itération Jacobi, la génération de jetons parallèles et les stratégies de déploiement en production. Source : ovachiever/droid-tings.

Comment installer speculative-decoding ?

Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/ovachiever/droid-tings --skill speculative-decoding Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor

Où se trouve le dépôt source ?

https://github.com/ovachiever/droid-tings