slime-user
✓Guía para el uso de SLIME (marco de post-formación LLM para RL Scaling). Úselo cuando trabaje con SLIME para el entrenamiento de aprendizaje reforzado de modelos de lenguaje, incluida la instalación, configuración, ejecución de entrenamiento, interacciones de múltiples turnos, modelos de recompensa personalizados, escenarios de llamada de herramientas o solución de problemas de flujos de trabajo de SLIME. Cubre GRPO, GSPO, PPO, Reinforce++, RL multiagente, capacitación VLM, backends FSDP/Megatron, integración SGLang, muestreo dinámico y funciones de generación personalizadas.
Instalación
SKILL.md
SLIME is an LLM post-training framework for RL Scaling developed by THUDM. It supports various RL algorithms (GRPO, GSPO, PPO, Reinforce++), multiple training backends (Megatron, FSDP), and advanced features like multi-turn interactions, tool calling, and dynamic sampling.
SLIME has extensive documentation. Use this guide to find what you need quickly.
For detailed navigation of all documentation, see references/docnavigation.md.
Guía para el uso de SLIME (marco de post-formación LLM para RL Scaling). Úselo cuando trabaje con SLIME para el entrenamiento de aprendizaje reforzado de modelos de lenguaje, incluida la instalación, configuración, ejecución de entrenamiento, interacciones de múltiples turnos, modelos de recompensa personalizados, escenarios de llamada de herramientas o solución de problemas de flujos de trabajo de SLIME. Cubre GRPO, GSPO, PPO, Reinforce++, RL multiagente, capacitación VLM, backends FSDP/Megatron, integración SGLang, muestreo dinámico y funciones de generación personalizadas. Fuente: yzlnew/infra-skills.
Datos (listos para citar)
Campos y comandos estables para citas de IA/búsqueda.
- Comando de instalación
npx skills add https://github.com/yzlnew/infra-skills --skill slime-user- Fuente
- yzlnew/infra-skills
- Categoría
- </>Desarrollo
- Verificado
- ✓
- Primera vez visto
- 2026-02-01
- Actualizado
- 2026-02-18
Respuestas rápidas
¿Qué es slime-user?
Guía para el uso de SLIME (marco de post-formación LLM para RL Scaling). Úselo cuando trabaje con SLIME para el entrenamiento de aprendizaje reforzado de modelos de lenguaje, incluida la instalación, configuración, ejecución de entrenamiento, interacciones de múltiples turnos, modelos de recompensa personalizados, escenarios de llamada de herramientas o solución de problemas de flujos de trabajo de SLIME. Cubre GRPO, GSPO, PPO, Reinforce++, RL multiagente, capacitación VLM, backends FSDP/Megatron, integración SGLang, muestreo dinámico y funciones de generación personalizadas. Fuente: yzlnew/infra-skills.
¿Cómo instalo slime-user?
Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/yzlnew/infra-skills --skill slime-user Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor
¿Dónde está el repositorio de origen?
https://github.com/yzlnew/infra-skills
Detalles
- Categoría
- </>Desarrollo
- Fuente
- skills.sh
- Primera vez visto
- 2026-02-01