Что такое megatron-memory-estimator?
Оцените использование памяти графического процессора для моделей MoE (Mixture of Experts) и плотных моделей на базе Megatron. Используйте, когда пользователям необходимо (1) оценить память на основе конфигураций модели HuggingFace (DeepSeek-V3, Qwen и т. д.), (2) спланировать распределение ресурсов графического процессора для обучения, (3) сравнить различные стратегии параллелизма (TP/PP/EP/CP), (4) определить, помещается ли модель в доступную память графического процессора, или (5) оптимизировать конфигурации обучения для повышения эффективности использования памяти. Источник: yzlnew/infra-skills.