ما هي tensorrt-llm؟
يعمل على تحسين استدلال LLM باستخدام NVIDIA TensorRT لتحقيق أقصى قدر من الإنتاجية وأقل زمن وصول. يُستخدم لنشر الإنتاج على وحدات معالجة الرسومات NVIDIA (A100/H100)، عندما تحتاج إلى استدلال أسرع بمقدار 10-100 مرة من PyTorch، أو لخدمة النماذج مع التكميم (FP8/INT4)، والتجميع على متن الطائرة، وتوسيع نطاق وحدات معالجة الرسومات المتعددة. المصدر: orchestra-research/ai-research-skills.