·nemo-curator

GPU-beschleunigte Datenkuration für das LLM-Training. Unterstützt Text/Bild/Video/Audio. Bietet Fuzzy-Deduplizierung (16-mal schneller), Qualitätsfilterung (über 30 Heuristiken), semantische Deduplizierung, PII-Redaktion und NSFW-Erkennung. Skaliert mit RAPIDS über GPUs hinweg. Zur Vorbereitung hochwertiger Trainingsdatensätze, zur Bereinigung von Webdaten oder zur Deduplizierung großer Korpora.

15Installationen·0Trend·@orchestra-research

Installation

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-curator

SKILL.md

| Operation | CPU (16 cores) | GPU (A100) | Speedup |

| Fuzzy dedup (8TB) | 120 hours | 7.5 hours | 16× | | Exact dedup (1TB) | 8 hours | 0.5 hours | 16× | | Quality filtering | 2 hours | 0.2 hours | 10× |

GPU-beschleunigte Datenkuration für das LLM-Training. Unterstützt Text/Bild/Video/Audio. Bietet Fuzzy-Deduplizierung (16-mal schneller), Qualitätsfilterung (über 30 Heuristiken), semantische Deduplizierung, PII-Redaktion und NSFW-Erkennung. Skaliert mit RAPIDS über GPUs hinweg. Zur Vorbereitung hochwertiger Trainingsdatensätze, zur Bereinigung von Webdaten oder zur Deduplizierung großer Korpora. Quelle: orchestra-research/ai-research-skills.

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-curator Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Original anzeigen

Fakten (zitierbereit)

Stabile Felder und Befehle für KI/Such-Zitate.

Installationsbefehl
npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-curator
Kategorie
*Kreativität
Verifiziert
Erstes Auftreten
2026-02-11
Aktualisiert
2026-02-18

Schnelle Antworten

Was ist nemo-curator?

GPU-beschleunigte Datenkuration für das LLM-Training. Unterstützt Text/Bild/Video/Audio. Bietet Fuzzy-Deduplizierung (16-mal schneller), Qualitätsfilterung (über 30 Heuristiken), semantische Deduplizierung, PII-Redaktion und NSFW-Erkennung. Skaliert mit RAPIDS über GPUs hinweg. Zur Vorbereitung hochwertiger Trainingsdatensätze, zur Bereinigung von Webdaten oder zur Deduplizierung großer Korpora. Quelle: orchestra-research/ai-research-skills.

Wie installiere ich nemo-curator?

Öffnen Sie Ihr Terminal oder Kommandozeilen-Tool (Terminal, iTerm, Windows Terminal, etc.) Kopieren Sie diesen Befehl und führen Sie ihn aus: npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-curator Nach der Installation wird der Skill automatisch in Ihrer KI-Programmierumgebung konfiguriert und ist bereit zur Verwendung in Claude Code oder Cursor

Wo ist das Quell-Repository?

https://github.com/orchestra-research/ai-research-skills