Что такое knowledge-distillation?
Сжимайте большие языковые модели, используя дистилляцию знаний от моделей учителя к моделям учеников. Используйте при развертывании моделей меньшего размера с сохранением производительности, переносе возможностей GPT-4 в модели с открытым исходным кодом или сокращении затрат на логические выводы. Охватывает температурное масштабирование, мягкие цели, обратный KLD, логит-дистилляцию и стратегии обучения MiniLLM. Источник: ovachiever/droid-tings.