nemo-curator
✓用于 LLM 培训的 GPU 加速数据管理。支持文本/图像/视频/音频。具有模糊重复数据删除(快 16 倍)、质量过滤(30 多种启发式)、语义重复数据删除、PII 编辑、NSFW 检测。使用 RAPIDS 跨 GPU 进行扩展。用于准备高质量的训练数据集、清理 Web 数据或对大型语料库进行重复数据删除。
SKILL.md
| Operation | CPU (16 cores) | GPU (A100) | Speedup |
| Fuzzy dedup (8TB) | 120 hours | 7.5 hours | 16× | | Exact dedup (1TB) | 8 hours | 0.5 hours | 16× | | Quality filtering | 2 hours | 0.2 hours | 10× |
用于 LLM 培训的 GPU 加速数据管理。支持文本/图像/视频/音频。具有模糊重复数据删除(快 16 倍)、质量过滤(30 多种启发式)、语义重复数据删除、PII 编辑、NSFW 检测。使用 RAPIDS 跨 GPU 进行扩展。用于准备高质量的训练数据集、清理 Web 数据或对大型语料库进行重复数据删除。 来源:orchestra-research/ai-research-skills。
打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-curator 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code 或 Cursor 中使用
可引用信息
为搜索与 AI 引用准备的稳定字段与命令。
- 安装命令
npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-curator- 分类
- *创意媒体
- 认证
- ✓
- 收录时间
- 2026-02-11
- 更新时间
- 2026-02-18
快速解答
什么是 nemo-curator?
用于 LLM 培训的 GPU 加速数据管理。支持文本/图像/视频/音频。具有模糊重复数据删除(快 16 倍)、质量过滤(30 多种启发式)、语义重复数据删除、PII 编辑、NSFW 检测。使用 RAPIDS 跨 GPU 进行扩展。用于准备高质量的训练数据集、清理 Web 数据或对大型语料库进行重复数据删除。 来源:orchestra-research/ai-research-skills。
如何安装 nemo-curator?
打开你的终端或命令行工具(如 Terminal、iTerm、Windows Terminal 等) 复制并运行以下命令:npx skills add https://github.com/orchestra-research/ai-research-skills --skill nemo-curator 安装完成后,技能将自动配置到你的 AI 编程环境中,可以在 Claude Code 或 Cursor 中使用
这个 Skill 的源码在哪?
https://github.com/orchestra-research/ai-research-skills
详情
- 分类
- *创意媒体
- 来源
- skills.sh
- 收录时间
- 2026-02-11