ما هي slime-user؟
دليل لاستخدام SLIME (إطار ما بعد التدريب LLM لـ RL Scaling). يُستخدم عند العمل مع SLIME لتعزيز التدريب على التعلم لنماذج اللغة، بما في ذلك الإعداد أو التكوين أو تنفيذ التدريب أو التفاعلات متعددة المنعطفات أو نماذج المكافآت المخصصة أو سيناريوهات استدعاء الأدوات أو استكشاف أخطاء سير عمل SLIME وإصلاحها. يغطي GRPO، وGSPO، وPPO، وReinforce++، وRL متعدد الوكلاء، وتدريب VLM، وواجهات FSDP/Megatron الخلفية، وتكامل SGLang، وأخذ العينات الديناميكية، ووظائف الإنشاء المخصصة. المصدر: yzlnew/infra-skills.