slime-user
✓Leitfaden zur Verwendung von SLIME (LLM-Post-Training-Framework für RL-Skalierung). Verwenden Sie es bei der Arbeit mit SLIME für das Reinforcement-Learning-Training von Sprachmodellen, einschließlich Einrichtung, Konfiguration, Trainingsausführung, Multi-Turn-Interaktionen, benutzerdefinierten Belohnungsmodellen, Tool-Aufrufszenarien oder Fehlerbehebung bei SLIME-Workflows. Deckt GRPO, GSPO, PPO, Reinforce++, Multi-Agent-RL, VLM-Training, FSDP/Megatron-Backends, SGLang-Integration, dynamische Stichproben und benutzerdefinierte Generierungsfunktionen ab.
Installation
SKILL.md
SLIME is an LLM post-training framework for RL Scaling developed by THUDM. It supports various RL algorithms (GRPO, GSPO, PPO, Reinforce++), multiple training backends (Megatron, FSDP), and advanced features like multi-turn interactions, tool calling, and dynamic sampling.
SLIME has extensive documentation. Use this guide to find what you need quickly.
For detailed navigation of all documentation, see references/docnavigation.md.
Leitfaden zur Verwendung von SLIME (LLM-Post-Training-Framework für RL-Skalierung). Verwenden Sie es bei der Arbeit mit SLIME für das Reinforcement-Learning-Training von Sprachmodellen, einschließlich Einrichtung, Konfiguration, Trainingsausführung, Multi-Turn-Interaktionen, benutzerdefinierten Belohnungsmodellen, Tool-Aufrufszenarien oder Fehlerbehebung bei SLIME-Workflows. Deckt GRPO, GSPO, PPO, Reinforce++, Multi-Agent-RL, VLM-Training, FSDP/Megatron-Backends, SGLang-Integration, dynamische Stichproben und benutzerdefinierte Generierungsfunktionen ab. Quelle: yzlnew/infra-skills.
Fakten (zitierbereit)
Stabile Felder und Befehle für KI/Such-Zitate.
- Installationsbefehl
npx skills add https://github.com/yzlnew/infra-skills --skill slime-user- Quelle
- yzlnew/infra-skills
- Kategorie
- </>Entwicklung
- Verifiziert
- ✓
- Erstes Auftreten
- 2026-02-01
- Aktualisiert
- 2026-02-18
Schnelle Antworten
Was ist slime-user?
Leitfaden zur Verwendung von SLIME (LLM-Post-Training-Framework für RL-Skalierung). Verwenden Sie es bei der Arbeit mit SLIME für das Reinforcement-Learning-Training von Sprachmodellen, einschließlich Einrichtung, Konfiguration, Trainingsausführung, Multi-Turn-Interaktionen, benutzerdefinierten Belohnungsmodellen, Tool-Aufrufszenarien oder Fehlerbehebung bei SLIME-Workflows. Deckt GRPO, GSPO, PPO, Reinforce++, Multi-Agent-RL, VLM-Training, FSDP/Megatron-Backends, SGLang-Integration, dynamische Stichproben und benutzerdefinierte Generierungsfunktionen ab. Quelle: yzlnew/infra-skills.
Wie installiere ich slime-user?
Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/yzlnew/infra-skills --skill slime-user Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor
Wo ist das Quell-Repository?
https://github.com/yzlnew/infra-skills
Details
- Kategorie
- </>Entwicklung
- Quelle
- skills.sh
- Erstes Auftreten
- 2026-02-01