Che cos'è training-llms-megatron?
Addestra modelli linguistici di grandi dimensioni (parametri 2B-462B) utilizzando NVIDIA Megatron-Core con strategie di parallelismo avanzate. Da utilizzare quando si addestrano modelli con parametri >1B, è necessaria la massima efficienza della GPU (47% MFU su H100) o si richiede parallelismo tensore/pipeline/sequenza/contesto/esperto. Framework pronto per la produzione utilizzato per Nemotron, LLaMA, DeepSeek. Fonte: ovachiever/droid-tings.