slime-user
✓SLIME (RL スケーリング用の LLM ポストトレーニング フレームワーク) の使用ガイド。セットアップ、構成、トレーニングの実行、マルチターン インタラクション、カスタム報酬モデル、ツール呼び出しシナリオ、SLIME ワークフローのトラブルシューティングなど、言語モデルの強化学習トレーニングのために SLIME を使用する場合に使用します。 GRPO、GSPO、PPO、Reinforce++、マルチエージェント RL、VLM トレーニング、FSDP/Megatron バックエンド、SGLang 統合、動的サンプリング、カスタム生成機能をカバーします。
SKILL.md
SLIME is an LLM post-training framework for RL Scaling developed by THUDM. It supports various RL algorithms (GRPO, GSPO, PPO, Reinforce++), multiple training backends (Megatron, FSDP), and advanced features like multi-turn interactions, tool calling, and dynamic sampling.
SLIME has extensive documentation. Use this guide to find what you need quickly.
For detailed navigation of all documentation, see references/docnavigation.md.
SLIME (RL スケーリング用の LLM ポストトレーニング フレームワーク) の使用ガイド。セットアップ、構成、トレーニングの実行、マルチターン インタラクション、カスタム報酬モデル、ツール呼び出しシナリオ、SLIME ワークフローのトラブルシューティングなど、言語モデルの強化学習トレーニングのために SLIME を使用する場合に使用します。 GRPO、GSPO、PPO、Reinforce++、マルチエージェント RL、VLM トレーニング、FSDP/Megatron バックエンド、SGLang 統合、動的サンプリング、カスタム生成機能をカバーします。 ソース: yzlnew/infra-skills。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/yzlnew/infra-skills --skill slime-user- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
slime-user とは?
SLIME (RL スケーリング用の LLM ポストトレーニング フレームワーク) の使用ガイド。セットアップ、構成、トレーニングの実行、マルチターン インタラクション、カスタム報酬モデル、ツール呼び出しシナリオ、SLIME ワークフローのトラブルシューティングなど、言語モデルの強化学習トレーニングのために SLIME を使用する場合に使用します。 GRPO、GSPO、PPO、Reinforce++、マルチエージェント RL、VLM トレーニング、FSDP/Megatron バックエンド、SGLang 統合、動的サンプリング、カスタム生成機能をカバーします。 ソース: yzlnew/infra-skills。
slime-user のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/yzlnew/infra-skills --skill slime-user インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/yzlnew/infra-skills
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-01