Что такое slime-user?
Руководство по использованию SLIME (среда постобучения LLM для масштабирования RL). Используйте при работе с SLIME для обучения языковым моделям с подкреплением, включая настройку, конфигурацию, выполнение обучения, многоходовые взаимодействия, пользовательские модели вознаграждения, сценарии вызова инструментов или устранение неполадок в рабочих процессах SLIME. Охватывает GRPO, GSPO, PPO, Reinforce++, многоагентное RL, обучение VLM, серверные части FSDP/Megatron, интеграцию SGLang, динамическую выборку и функции пользовательской генерации. Источник: yzlnew/infra-skills.