·sentencepiece
</>

sentencepiece

orchestra-research/ai-research-skills

Sprachunabhängiger Tokenizer, der Text als rohen Unicode behandelt. Unterstützt BPE- und Unigram-Algorithmen. Schnell (50.000 Sätze/Sek.), leichtgewichtig (6 MB Speicher), deterministisches Vokabular. Wird von T5, ALBERT, XLNet, mBART verwendet. Trainieren Sie mit Rohtext ohne Vor-Tokenisierung. Verwenden Sie es, wenn Sie mehrsprachige Unterstützung, CJK-Sprachen oder reproduzierbare Tokenisierung benötigen.

15Installationen·1Trend·@orchestra-research

Installation

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill sentencepiece

SKILL.md

Unsupervised tokenizer that works on raw text without language-specific preprocessing.

Key principle: Treat text as raw Unicode, whitespace = ▁ (meta symbol)

| English | 0.9995 | Most common chars | | CJK (Chinese) | 1.0 | All characters needed | | Multilingual | 0.9995 | Balance |

Sprachunabhängiger Tokenizer, der Text als rohen Unicode behandelt. Unterstützt BPE- und Unigram-Algorithmen. Schnell (50.000 Sätze/Sek.), leichtgewichtig (6 MB Speicher), deterministisches Vokabular. Wird von T5, ALBERT, XLNet, mBART verwendet. Trainieren Sie mit Rohtext ohne Vor-Tokenisierung. Verwenden Sie es, wenn Sie mehrsprachige Unterstützung, CJK-Sprachen oder reproduzierbare Tokenisierung benötigen. Quelle: orchestra-research/ai-research-skills.

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/orchestra-research/ai-research-skills --skill sentencepiece
Kategorie
</>Entwicklung
Verifiziert
Erstes Auftreten
2026-02-11
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist sentencepiece?

Sprachunabhängiger Tokenizer, der Text als rohen Unicode behandelt. Unterstützt BPE- und Unigram-Algorithmen. Schnell (50.000 Sätze/Sek.), leichtgewichtig (6 MB Speicher), deterministisches Vokabular. Wird von T5, ALBERT, XLNet, mBART verwendet. Trainieren Sie mit Rohtext ohne Vor-Tokenisierung. Verwenden Sie es, wenn Sie mehrsprachige Unterstützung, CJK-Sprachen oder reproduzierbare Tokenisierung benötigen. Quelle: orchestra-research/ai-research-skills.

Wie installiere ich sentencepiece?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/orchestra-research/ai-research-skills --skill sentencepiece Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/orchestra-research/ai-research-skills