Что такое slime-rl-training?
Содержит рекомендации по пост-обучению LLM с использованием RL с использованием Slime, платформы Megatron + SGLang. Используйте при обучении моделей GLM, реализации пользовательских рабочих процессов создания данных или при необходимости тесной интеграции Megatron-LM для масштабирования RL. Источник: orchestra-research/ai-research-skills.