sentencepiece

Name: sentencepiece
Author: orchestra-research

✓

Sprachunabhängiger Tokenizer, der Text als rohen Unicode behandelt. Unterstützt BPE- und Unigram-Algorithmen. Schnell (50.000 Sätze/Sek.), leichtgewichtig (6 MB Speicher), deterministisches Vokabular. Wird von T5, ALBERT, XLNet, mBART verwendet. Trainieren Sie mit Rohtext ohne Vor-Tokenisierung. Verwenden Sie es, wenn Sie mehrsprachige Unterstützung, CJK-Sprachen oder reproduzierbare Tokenisierung benötigen.

orchestra-research·sentencepiece

15Installationen·1Trend·@orchestra-research

Installation

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill sentencepiece

Details

Kategorie: </>Entwicklung
Quelle: skills.sh
Erstes Auftreten: 2026-02-11

sentencepiece

Installation

SKILL.md

Fakten (zitierbereit)

Schnelle Antworten

Was ist sentencepiece?

Wie installiere ich sentencepiece?

Wo ist das Quell-Repository?

Details

Verwandte Skills