ما هي knowledge-distillation؟
ضغط نماذج اللغة الكبيرة باستخدام تقطير المعرفة من نماذج المعلم إلى الطلاب. يُستخدم عند نشر نماذج أصغر ذات أداء محتفظ به، أو نقل إمكانات GPT-4 إلى نماذج مفتوحة المصدر، أو تقليل تكاليف الاستدلال. يغطي قياس درجة الحرارة، والأهداف السهلة، وKLD العكسي، والتقطير اللوغاريتمي، واستراتيجيات تدريب MiniLLM. المصدر: orchestra-research/ai-research-skills.