training-llms-megatron

Name: training-llms-megatron
Author: ovachiever

✓

ovachiever/droid-tings

Entrena modelos de lenguaje grandes (parámetros 2B-462B) utilizando NVIDIA Megatron-Core con estrategias de paralelismo avanzadas. Úselo cuando entrene modelos con >1B de parámetros, necesite la máxima eficiencia de GPU (47 % de MFU en H100) o requiera tensor/canalización/secuencia/contexto/paralelismo experto. Marco listo para producción utilizado para Nemotron, LLaMA, DeepSeek.

ovachiever·training·llms·megatron

26Instalaciones·0Tendencia·@ovachiever