ما هي training-llms-megatron؟
تدريب نماذج اللغات الكبيرة (معلمات 2B-462B) باستخدام NVIDIA Megatron-Core مع إستراتيجيات التوازي المتقدمة. يُستخدم عندما تحتاج نماذج التدريب > معلمات 1B إلى أقصى قدر من كفاءة وحدة معالجة الرسومات (47% MFU على H100)، أو تتطلب موتر/خط أنابيب/تسلسل/سياق/توازي خبير. إطار عمل جاهز للإنتاج يستخدم في Nemotron وLLaMA وDeepSeek. المصدر: ovachiever/droid-tings.