·huggingface-tokenizers
</>

huggingface-tokenizers

Быстрые токенизаторы, оптимизированные для исследований и производства. Реализация на основе Rust токенизирует 1 ГБ менее чем за 20 секунд. Поддерживает алгоритмы BPE, WordPiece и Unigram. Обучайте пользовательские словари, отслеживайте выравнивание, обрабатывайте заполнение/усечение. Легко интегрируется с трансформерами. Используйте его, когда вам нужна высокопроизводительная токенизация или обучение пользовательскому токенизатору.

38Установки·2Тренд·@orchestra-research

Установка

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill huggingface-tokenizers

Как установить huggingface-tokenizers

Быстро установите AI-навык huggingface-tokenizers в вашу среду разработки через командную строку

  1. Откройте терминал: Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.)
  2. Выполните команду установки: Скопируйте и выполните эту команду: npx skills add https://github.com/orchestra-research/ai-research-skills --skill huggingface-tokenizers
  3. Проверьте установку: После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Источник: orchestra-research/ai-research-skills.

Fast, production-ready tokenizers with Rust performance and Python ease-of-use.

Training time: 1-2 minutes for 100MB corpus, 10-20 minutes for 1GB

Complete pipeline: Normalization → Pre-tokenization → Model → Post-processing

Быстрые токенизаторы, оптимизированные для исследований и производства. Реализация на основе Rust токенизирует 1 ГБ менее чем за 20 секунд. Поддерживает алгоритмы BPE, WordPiece и Unigram. Обучайте пользовательские словари, отслеживайте выравнивание, обрабатывайте заполнение/усечение. Легко интегрируется с трансформерами. Используйте его, когда вам нужна высокопроизводительная токенизация или обучение пользовательскому токенизатору. Источник: orchestra-research/ai-research-skills.

Факты (для цитирования)

Стабильные поля и команды для ссылок в AI/поиске.

Команда установки
npx skills add https://github.com/orchestra-research/ai-research-skills --skill huggingface-tokenizers
Категория
</>Разработка
Проверено
Впервые замечено
2026-02-11
Обновлено
2026-03-10

Browse more skills from orchestra-research/ai-research-skills

Короткие ответы

Что такое huggingface-tokenizers?

Быстрые токенизаторы, оптимизированные для исследований и производства. Реализация на основе Rust токенизирует 1 ГБ менее чем за 20 секунд. Поддерживает алгоритмы BPE, WordPiece и Unigram. Обучайте пользовательские словари, отслеживайте выравнивание, обрабатывайте заполнение/усечение. Легко интегрируется с трансформерами. Используйте его, когда вам нужна высокопроизводительная токенизация или обучение пользовательскому токенизатору. Источник: orchestra-research/ai-research-skills.

Как установить huggingface-tokenizers?

Откройте терминал или инструмент командной строки (Terminal, iTerm, Windows Terminal и т.д.) Скопируйте и выполните эту команду: npx skills add https://github.com/orchestra-research/ai-research-skills --skill huggingface-tokenizers После установки навык будет автоматически настроен в вашей AI-среде разработки и готов к использованию в Claude Code, Cursor или OpenClaw

Где находится исходный репозиторий?

https://github.com/orchestra-research/ai-research-skills

Детали

Категория
</>Разработка
Источник
skills.sh
Впервые замечено
2026-02-11