ما هي nemo-curator؟
معالجة البيانات المسرّعة بواسطة GPU لتدريب LLM. يدعم النص/الصورة/الفيديو/الصوت. يتميز بإلغاء البيانات المكررة الغامضة (16× أسرع)، وتصفية الجودة (30+ استدلالًا)، وإلغاء البيانات المكررة الدلالية، وتنقيح معلومات تحديد الهوية الشخصية (PII)، واكتشاف NSFW. المقاييس عبر وحدات معالجة الرسومات باستخدام RAPIDS. يُستخدم لإعداد مجموعات بيانات تدريب عالية الجودة، أو تنظيف بيانات الويب، أو إلغاء تكرار المجموعات الكبيرة. المصدر: orchestra-research/ai-research-skills.