¿Qué es training-llms-megatron?
Entrena modelos de lenguaje grandes (parámetros 2B-462B) utilizando NVIDIA Megatron-Core con estrategias de paralelismo avanzadas. Úselo cuando entrene modelos con >1B de parámetros, necesite la máxima eficiencia de GPU (47 % de MFU en H100) o requiera tensor/canalización/secuencia/contexto/paralelismo experto. Marco listo para producción utilizado para Nemotron, LLaMA, DeepSeek. Fuente: ovachiever/droid-tings.