Qu'est-ce que training-llms-megatron ?
Entraîne des modèles de langage volumineux (paramètres 2B-462B) à l'aide de NVIDIA Megatron-Core avec des stratégies de parallélisme avancées. À utiliser lors de l'entraînement de modèles > 1 B de paramètres, nécessitant une efficacité GPU maximale (47 % MFU sur H100) ou nécessitant un tenseur/pipeline/séquence/contexte/parallélisme expert. Framework prêt pour la production utilisé pour Nemotron, LLaMA, DeepSeek. Source : ovachiever/droid-tings.