Что такое training-llms-megatron?
Обучает большие языковые модели (параметры 2B-462B) с использованием NVIDIA Megatron-Core с расширенными стратегиями параллелизма. Используйте при обучении моделей с параметрами >1B, когда требуется максимальная эффективность графического процессора (47% MFU на H100) или требуется тензорный/конвейерный/последовательный/контекстный/экспертный параллелизм. Готовый к производству фреймворк, используемый для Nemotron, LLaMA, DeepSeek. Источник: ovachiever/droid-tings.