Che cos'è knowledge-distillation?
Comprimi modelli linguistici di grandi dimensioni utilizzando la distillazione della conoscenza dai modelli insegnante a studente. Da utilizzare durante la distribuzione di modelli più piccoli con prestazioni mantenute, il trasferimento di funzionalità GPT-4 a modelli open source o la riduzione dei costi di inferenza. Copre il ridimensionamento della temperatura, i soft target, il KLD inverso, la distillazione logit e le strategie di formazione MiniLLM. Fonte: ovachiever/droid-tings.