slime-rl-training

Name: slime-rl-training
Author: orchestra-research

✓

orchestra-research/ai-research-skills

يوفر إرشادات لمرحلة ما بعد التدريب في LLM مع RL باستخدام الوحل، وهو إطار عمل Megatron+SGLang. يُستخدم عند تدريب نماذج GLM، أو تنفيذ مسارات عمل إنشاء البيانات المخصصة، أو الحاجة إلى تكامل Megatron-LM المحكم لقياس RL.

orchestra-research·slime·rl·training

38التثبيتات·1الرائج·@orchestra-research