Che cos'è nemo-curator?
Data Curation accelerato da GPU per la formazione LLM. Supporta testo/immagine/video/audio. Dispone di deduplicazione fuzzy (16 volte più veloce), filtraggio della qualità (30+ euristiche), deduplicazione semantica, redazione PII, rilevamento NSFW. Scalabilità tra GPU con RAPIDS. Da utilizzare per preparare set di dati di addestramento di alta qualità, pulire dati Web o deduplicare corpora di grandi dimensioni. Fonte: ovachiever/droid-tings.