high-performance-inference
Inferencia LLM de alto rendimiento con vLLM, cuantificación (AWQ, GPTQ, FP8), decodificación especulativa e implementación perimetral. Utilícelo para optimizar la latencia, el rendimiento o la memoria de inferencia.
SKILL.md
Optimize LLM inference for production with vLLM 0.14.x, quantization, and speculative decoding.
vLLM 0.14.0 (Jan 2026): PyTorch 2.9.0, CUDA 12.9, AttentionConfig API, Python 3.12+ recommended.
| PagedAttention | Up to 24x throughput via efficient KV cache | | Continuous Batching | Dynamic request batching for max utilization | | CUDA Graphs | Fast model execution with graph capture | | Tensor Parallelism | Scale across multiple GPUs | | Prefix Caching | Reuse KV cache for shared prefixes |
Inferencia LLM de alto rendimiento con vLLM, cuantificación (AWQ, GPTQ, FP8), decodificación especulativa e implementación perimetral. Utilícelo para optimizar la latencia, el rendimiento o la memoria de inferencia. Fuente: yonatangross/skillforge-claude-plugin.
Datos (listos para citar)
Campos y comandos estables para citas de IA/búsqueda.
- Comando de instalación
npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference- Categoría
- </>Desarrollo
- Verificado
- —
- Primera vez visto
- 2026-02-01
- Actualizado
- 2026-02-18
Respuestas rápidas
¿Qué es high-performance-inference?
Inferencia LLM de alto rendimiento con vLLM, cuantificación (AWQ, GPTQ, FP8), decodificación especulativa e implementación perimetral. Utilícelo para optimizar la latencia, el rendimiento o la memoria de inferencia. Fuente: yonatangross/skillforge-claude-plugin.
¿Cómo instalo high-performance-inference?
Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor
¿Dónde está el repositorio de origen?
https://github.com/yonatangross/skillforge-claude-plugin
Detalles
- Categoría
- </>Desarrollo
- Fuente
- user
- Primera vez visto
- 2026-02-01