sentencepiece
✓言語に依存しないトークナイザーは、テキストを生の Unicode として処理します。 BPE および Unigram アルゴリズムをサポートします。高速 (50,000 文/秒)、軽量 (6MB メモリ)、決定的な語彙。 T5、ALBERT、XLNet、mBART によって使用されます。事前トークン化を行わずに生のテキストでトレーニングします。多言語サポート、CJK 言語、または再現可能なトークン化が必要な場合に使用します。
SKILL.md
Unsupervised tokenizer that works on raw text without language-specific preprocessing.
Key principle: Treat text as raw Unicode, whitespace = ▁ (meta symbol)
| English | 0.9995 | Most common chars | | CJK (Chinese) | 1.0 | All characters needed | | Multilingual | 0.9995 | Balance |
言語に依存しないトークナイザーは、テキストを生の Unicode として処理します。 BPE および Unigram アルゴリズムをサポートします。高速 (50,000 文/秒)、軽量 (6MB メモリ)、決定的な語彙。 T5、ALBERT、XLNet、mBART によって使用されます。事前トークン化を行わずに生のテキストでトレーニングします。多言語サポート、CJK 言語、または再現可能なトークン化が必要な場合に使用します。 ソース: ovachiever/droid-tings。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/ovachiever/droid-tings --skill sentencepiece- カテゴリ
- </>開発ツール
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
sentencepiece とは?
言語に依存しないトークナイザーは、テキストを生の Unicode として処理します。 BPE および Unigram アルゴリズムをサポートします。高速 (50,000 文/秒)、軽量 (6MB メモリ)、決定的な語彙。 T5、ALBERT、XLNet、mBART によって使用されます。事前トークン化を行わずに生のテキストでトレーニングします。多言語サポート、CJK 言語、または再現可能なトークン化が必要な場合に使用します。 ソース: ovachiever/droid-tings。
sentencepiece のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/ovachiever/droid-tings --skill sentencepiece インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/ovachiever/droid-tings
詳細
- カテゴリ
- </>開発ツール
- ソース
- skills.sh
- 初回登録
- 2026-02-01