·sentencepiece
</>

sentencepiece

orchestra-research/ai-research-skills

言語に依存しないトークナイザーは、テキストを生の Unicode として処理します。 BPE および Unigram アルゴリズムをサポートします。高速 (50,000 文/秒)、軽量 (6MB メモリ)、決定的な語彙。 T5、ALBERT、XLNet、mBART によって使用されます。事前トークン化を行わずに生のテキストでトレーニングします。多言語サポート、CJK 言語、または再現可能なトークン化が必要な場合に使用します。

14インストール·0トレンド·@orchestra-research

インストール

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill sentencepiece

SKILL.md

Unsupervised tokenizer that works on raw text without language-specific preprocessing.

Key principle: Treat text as raw Unicode, whitespace = ▁ (meta symbol)

| English | 0.9995 | Most common chars | | CJK (Chinese) | 1.0 | All characters needed | | Multilingual | 0.9995 | Balance |

言語に依存しないトークナイザーは、テキストを生の Unicode として処理します。 BPE および Unigram アルゴリズムをサポートします。高速 (50,000 文/秒)、軽量 (6MB メモリ)、決定的な語彙。 T5、ALBERT、XLNet、mBART によって使用されます。事前トークン化を行わずに生のテキストでトレーニングします。多言語サポート、CJK 言語、または再現可能なトークン化が必要な場合に使用します。 ソース: orchestra-research/ai-research-skills。

原文を見る

引用可能な情報

AI/検索での引用用の安定したフィールドとコマンド。

インストールコマンド
npx skills add https://github.com/orchestra-research/ai-research-skills --skill sentencepiece
カテゴリ
</>開発ツール
認証済み
初回登録
2026-02-11
更新日
2026-02-18

クイックアンサー

sentencepiece とは?

言語に依存しないトークナイザーは、テキストを生の Unicode として処理します。 BPE および Unigram アルゴリズムをサポートします。高速 (50,000 文/秒)、軽量 (6MB メモリ)、決定的な語彙。 T5、ALBERT、XLNet、mBART によって使用されます。事前トークン化を行わずに生のテキストでトレーニングします。多言語サポート、CJK 言語、または再現可能なトークン化が必要な場合に使用します。 ソース: orchestra-research/ai-research-skills。

sentencepiece のインストール方法は?

ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/orchestra-research/ai-research-skills --skill sentencepiece インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります

ソースリポジトリはどこですか?

https://github.com/orchestra-research/ai-research-skills