ما هي miles-rl-training؟
يوفر إرشادات لتدريب RL على مستوى المؤسسات باستخدام الأميال، وهي شوكة من السلايم جاهزة للإنتاج. يُستخدم عند تدريب نماذج MoE الكبيرة باستخدام FP8/INT4، أو التي تحتاج إلى محاذاة استدلال التدريب، أو تتطلب RL التخميني لتحقيق أقصى قدر من الإنتاجية. المصدر: orchestra-research/ai-research-skills.