sentencepiece
✓Tokenizer indépendant de la langue traitant le texte comme un Unicode brut. Prend en charge les algorithmes BPE et Unigram. Rapide (50 000 phrases/s), léger (mémoire de 6 Mo), vocabulaire déterministe. Utilisé par T5, ALBERT, XLNet, mBART. Entraînez-vous sur du texte brut sans pré-tokenisation. À utiliser lorsque vous avez besoin d'une prise en charge multilingue, de langues CJK ou d'une tokenisation reproductible.
Installation
SKILL.md
Unsupervised tokenizer that works on raw text without language-specific preprocessing.
Key principle: Treat text as raw Unicode, whitespace = ▁ (meta symbol)
| English | 0.9995 | Most common chars | | CJK (Chinese) | 1.0 | All characters needed | | Multilingual | 0.9995 | Balance |
Tokenizer indépendant de la langue traitant le texte comme un Unicode brut. Prend en charge les algorithmes BPE et Unigram. Rapide (50 000 phrases/s), léger (mémoire de 6 Mo), vocabulaire déterministe. Utilisé par T5, ALBERT, XLNet, mBART. Entraînez-vous sur du texte brut sans pré-tokenisation. À utiliser lorsque vous avez besoin d'une prise en charge multilingue, de langues CJK ou d'une tokenisation reproductible. Source : ovachiever/droid-tings.
Faits (prêts à citer)
Champs et commandes stables pour les citations IA/recherche.
- Commande d'installation
npx skills add https://github.com/ovachiever/droid-tings --skill sentencepiece- Source
- ovachiever/droid-tings
- Catégorie
- </>Développement
- Vérifié
- ✓
- Première apparition
- 2026-02-01
- Mis à jour
- 2026-02-18
Réponses rapides
Qu'est-ce que sentencepiece ?
Tokenizer indépendant de la langue traitant le texte comme un Unicode brut. Prend en charge les algorithmes BPE et Unigram. Rapide (50 000 phrases/s), léger (mémoire de 6 Mo), vocabulaire déterministe. Utilisé par T5, ALBERT, XLNet, mBART. Entraînez-vous sur du texte brut sans pré-tokenisation. À utiliser lorsque vous avez besoin d'une prise en charge multilingue, de langues CJK ou d'une tokenisation reproductible. Source : ovachiever/droid-tings.
Comment installer sentencepiece ?
Ouvrez votre terminal ou outil de ligne de commande (Terminal, iTerm, Windows Terminal, etc.) Copiez et exécutez cette commande : npx skills add https://github.com/ovachiever/droid-tings --skill sentencepiece Une fois installé, le skill sera automatiquement configuré dans votre environnement de programmation IA et prêt à être utilisé dans Claude Code ou Cursor
Où se trouve le dépôt source ?
https://github.com/ovachiever/droid-tings
Détails
- Catégorie
- </>Développement
- Source
- skills.sh
- Première apparition
- 2026-02-01