ما هي speculative-decoding؟
تسريع الاستدلال LLM باستخدام فك التشفير التخميني، ورؤوس ميدوسا المتعددة، وتقنيات فك التشفير الأمامية. يُستخدم عند تحسين سرعة الاستدلال (1.5-3.6× تسريع)، أو تقليل زمن الوصول لتطبيقات الوقت الفعلي، أو نشر النماذج ذات الحوسبة المحدودة. يغطي نماذج المسودة، والاهتمام القائم على الشجرة، وتكرار جاكوبي، وتوليد الرموز الموازية، واستراتيجيات نشر الإنتاج. المصدر: ovachiever/droid-tings.