slime-rl-training

Name: slime-rl-training
Author: orchestra-research

✓

Fournit des conseils pour la post-formation LLM avec RL en utilisant slime, un framework Megatron+SGLang. À utiliser lors de la formation de modèles GLM, de la mise en œuvre de flux de travail de génération de données personnalisés ou de la nécessité d'une intégration étroite Megatron-LM pour la mise à l'échelle RL.

orchestra-research·slime·rl·training

15Installations·0Tendance·@orchestra-research