Что такое nemo-curator?
Обработка данных с ускорением на графическом процессоре для обучения LLM. Поддерживает текст/изображение/видео/аудио. Функции нечеткой дедупликации (в 16 раз быстрее), качественной фильтрации (более 30 эвристик), семантической дедупликации, редактирования PII, обнаружения NSFW. Масштабируется между графическими процессорами с помощью RAPIDS. Используйте для подготовки высококачественных наборов обучающих данных, очистки веб-данных или дедупликации крупных корпусов. Источник: ovachiever/droid-tings.