·high-performance-inference
</>

high-performance-inference

Высокопроизводительный вывод LLM с помощью vLLM, квантования (AWQ, GPTQ, FP8), спекулятивного декодирования и периферийного развертывания. Используйте при оптимизации задержки вывода, пропускной способности или памяти.

4Установки·0Тренд·@yonatangross

Установка

$npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference

Как установить high-performance-inference

Быстро установите AI-навык high-performance-inference в вашу среду разработки через командную строку

  1. Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
  2. Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference
  3. Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Источник: yonatangross/skillforge-claude-plugin.

Optimize LLM inference for production with vLLM 0.14.x, quantization, and speculative decoding.

vLLM 0.14.0 (Jan 2026): PyTorch 2.9.0, CUDA 12.9, AttentionConfig API, Python 3.12+ recommended.

| PagedAttention | Up to 24x throughput via efficient KV cache | | Continuous Batching | Dynamic request batching for max utilization | | CUDA Graphs | Fast model execution with graph capture | | Tensor Parallelism | Scale across multiple GPUs | | Prefix Caching | Reuse KV cache for shared prefixes |

Высокопроизводительный вывод LLM с помощью vLLM, квантования (AWQ, GPTQ, FP8), спекулятивного декодирования и периферийного развертывания. Используйте при оптимизации задержки вывода, пропускной способности или памяти. Источник: yonatangross/skillforge-claude-plugin.

Факты (для цитирования)

Стабильные поля и команды для ссылок в AI/поиске.

Команда установки
npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference
Категория
</>Разработка
Проверено
Впервые замечено
2026-02-01
Обновлено
2026-03-10

Browse more skills from yonatangross/skillforge-claude-plugin

Короткие ответы

Что такое high-performance-inference?

Высокопроизводительный вывод LLM с помощью vLLM, квантования (AWQ, GPTQ, FP8), спекулятивного декодирования и периферийного развертывания. Используйте при оптимизации задержки вывода, пропускной способности или памяти. Источник: yonatangross/skillforge-claude-plugin.

Как установить high-performance-inference?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/yonatangross/skillforge-claude-plugin --skill high-performance-inference После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/yonatangross/skillforge-claude-plugin

Детали

Категория
</>Разработка
Источник
skills.sh
Впервые замечено
2026-02-01