Che cos'è slime-user?
Guida per l'utilizzo di SLIME (framework post-formazione LLM per RL Scaling). Da utilizzare quando si lavora con SLIME per la formazione con apprendimento per rinforzo di modelli linguistici, tra cui impostazione, configurazione, esecuzione della formazione, interazioni multi-turno, modelli di ricompensa personalizzati, scenari di chiamata di strumenti o risoluzione dei problemi dei flussi di lavoro SLIME. Copre GRPO, GSPO, PPO, Reinforce++, RL multi-agente, formazione VLM, backend FSDP/Megatron, integrazione SGLang, campionamento dinamico e funzioni di generazione personalizzata. Fonte: yzlnew/infra-skills.