·high-performance-inference
</>

high-performance-inference

yonatangross/skillforge-claude-plugin

Inferencia LLM de alto rendimiento con vLLM, cuantificación (AWQ, GPTQ, FP8), decodificación especulativa e implementación perimetral. Utilícelo para optimizar la latencia, el rendimiento o la memoria de inferencia.

0Instalaciones·0Tendencia·@yonatangross

Instalación

$npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference

SKILL.md

Optimize LLM inference for production with vLLM 0.14.x, quantization, and speculative decoding.

vLLM 0.14.0 (Jan 2026): PyTorch 2.9.0, CUDA 12.9, AttentionConfig API, Python 3.12+ recommended.

| PagedAttention | Up to 24x throughput via efficient KV cache | | Continuous Batching | Dynamic request batching for max utilization | | CUDA Graphs | Fast model execution with graph capture | | Tensor Parallelism | Scale across multiple GPUs | | Prefix Caching | Reuse KV cache for shared prefixes |

Inferencia LLM de alto rendimiento con vLLM, cuantificación (AWQ, GPTQ, FP8), decodificación especulativa e implementación perimetral. Utilícelo para optimizar la latencia, el rendimiento o la memoria de inferencia. Fuente: yonatangross/skillforge-claude-plugin.

Ver original

Datos (listos para citar)

Campos y comandos estables para citas de IA/búsqueda.

Comando de instalación
npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference
Categoría
</>Desarrollo
Verificado
Primera vez visto
2026-02-01
Actualizado
2026-02-18

Respuestas rápidas

¿Qué es high-performance-inference?

Inferencia LLM de alto rendimiento con vLLM, cuantificación (AWQ, GPTQ, FP8), decodificación especulativa e implementación perimetral. Utilícelo para optimizar la latencia, el rendimiento o la memoria de inferencia. Fuente: yonatangross/skillforge-claude-plugin.

¿Cómo instalo high-performance-inference?

Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor

¿Dónde está el repositorio de origen?

https://github.com/yonatangross/skillforge-claude-plugin