Was ist training-llms-megatron?
Trains large language models (2B-462B parameters) using NVIDIA Megatron-Core with advanced parallelism strategies. Wird verwendet, wenn Modelle mit mehr als 1 B Parametern trainiert werden, maximale GPU-Effizienz (47 % MFU auf H100) erforderlich ist oder Tensor-/Pipeline-/Sequenz-/Kontext-/Expertenparallelität erforderlich ist. Production-ready framework used for Nemotron, LLaMA, DeepSeek. Quelle: ovachiever/droid-tings.