Che cos'è slime-rl-training?
Fornisce indicazioni per il post-formazione LLM con RL utilizzando slime, un framework Megatron+SGLang. Da utilizzare durante l'addestramento di modelli GLM, l'implementazione di flussi di lavoro di generazione dati personalizzati o la necessità di una stretta integrazione Megatron-LM per il dimensionamento RL. Fonte: orchestra-research/ai-research-skills.