Что такое high-performance-inference?
Высокопроизводительный вывод LLM с помощью vLLM, квантования (AWQ, GPTQ, FP8), спекулятивного декодирования и периферийного развертывания. Используйте при оптимизации задержки вывода, пропускной способности или памяти. Источник: yonatangross/orchestkit.