Что такое huggingface-tokenizers?
Быстрые токенизаторы, оптимизированные для исследований и производства. Реализация на основе Rust токенизирует 1 ГБ менее чем за 20 секунд. Поддерживает алгоритмы BPE, WordPiece и Unigram. Обучайте пользовательские словари, отслеживайте выравнивание, обрабатывайте заполнение/усечение. Легко интегрируется с трансформерами. Используйте его, когда вам нужна высокопроизводительная токенизация или обучение пользовательскому токенизатору. Источник: orchestra-research/ai-research-skills.