ما هي slime-rl-training؟
يوفر إرشادات لمرحلة ما بعد التدريب في LLM مع RL باستخدام الوحل، وهو إطار عمل Megatron+SGLang. يُستخدم عند تدريب نماذج GLM، أو تنفيذ مسارات عمل إنشاء البيانات المخصصة، أو الحاجة إلى تكامل Megatron-LM المحكم لقياس RL. المصدر: orchestra-research/ai-research-skills.