sentencepiece
✓Tokenizador independiente del idioma que trata el texto como Unicode sin formato. Admite algoritmos BPE y Unigram. Rápido (50.000 frases/seg), ligero (memoria de 6 MB), vocabulario determinista. Utilizado por T5, ALBERT, XLNet, mBART. Entrene con texto sin formato sin tokenización previa. Úselo cuando necesite soporte multilingüe, idiomas CJK o tokenización reproducible.
SKILL.md
Unsupervised tokenizer that works on raw text without language-specific preprocessing.
Key principle: Treat text as raw Unicode, whitespace = ▁ (meta symbol)
| English | 0.9995 | Most common chars | | CJK (Chinese) | 1.0 | All characters needed | | Multilingual | 0.9995 | Balance |
Tokenizador independiente del idioma que trata el texto como Unicode sin formato. Admite algoritmos BPE y Unigram. Rápido (50.000 frases/seg), ligero (memoria de 6 MB), vocabulario determinista. Utilizado por T5, ALBERT, XLNet, mBART. Entrene con texto sin formato sin tokenización previa. Úselo cuando necesite soporte multilingüe, idiomas CJK o tokenización reproducible. Fuente: orchestra-research/ai-research-skills.
Datos (listos para citar)
Campos y comandos estables para citas de IA/búsqueda.
- Comando de instalación
npx skills add https://github.com/orchestra-research/ai-research-skills --skill sentencepiece- Categoría
- </>Desarrollo
- Verificado
- ✓
- Primera vez visto
- 2026-02-11
- Actualizado
- 2026-02-18
Respuestas rápidas
¿Qué es sentencepiece?
Tokenizador independiente del idioma que trata el texto como Unicode sin formato. Admite algoritmos BPE y Unigram. Rápido (50.000 frases/seg), ligero (memoria de 6 MB), vocabulario determinista. Utilizado por T5, ALBERT, XLNet, mBART. Entrene con texto sin formato sin tokenización previa. Úselo cuando necesite soporte multilingüe, idiomas CJK o tokenización reproducible. Fuente: orchestra-research/ai-research-skills.
¿Cómo instalo sentencepiece?
Abre tu terminal o herramienta de línea de comandos (Terminal, iTerm, Windows Terminal, etc.) Copia y ejecuta este comando: npx skills add https://github.com/orchestra-research/ai-research-skills --skill sentencepiece Una vez instalado, el skill se configurará automáticamente en tu entorno de programación con IA y estará listo para usar en Claude Code o Cursor
¿Dónde está el repositorio de origen?
https://github.com/orchestra-research/ai-research-skills
Detalles
- Categoría
- </>Desarrollo
- Fuente
- skills.sh
- Primera vez visto
- 2026-02-11