training-llms-megatron

Name: training-llms-megatron
Author: ovachiever

✓

ovachiever/droid-tings

Addestra modelli linguistici di grandi dimensioni (parametri 2B-462B) utilizzando NVIDIA Megatron-Core con strategie di parallelismo avanzate. Da utilizzare quando si addestrano modelli con parametri >1B, è necessaria la massima efficienza della GPU (47% MFU su H100) o si richiede parallelismo tensore/pipeline/sequenza/contesto/esperto. Framework pronto per la produzione utilizzato per Nemotron, LLaMA, DeepSeek.

ovachiever·training·llms·megatron

26Installazioni·0Tendenza·@ovachiever