Что такое moe-training?
Обучайте модели Mixture of Experts (MoE) с помощью DeepSpeed или HuggingFace. Используйте при обучении крупномасштабных моделей с ограниченными вычислительными ресурсами (снижение затрат в 5 раз по сравнению с плотными моделями), реализации разреженных архитектур, таких как Mixtral 8x7B или DeepSeek-V3, или масштабировании мощности модели без пропорционального увеличения вычислительных ресурсов. Охватывает архитектуру MoE, механизмы маршрутизации, балансировку нагрузки, экспертный параллелизм и оптимизацию вывода. Источник: ovachiever/droid-tings.