什麼是 markitdown?
将各种文件格式(PDF、Office 文档、图像、音频、网页内容、结构化数据)转换为针对 LLM 处理优化的 Markdown。將文件轉換為 Markdown、從 PDF/Office 文件中提取文字、轉錄音訊、對圖像執行 OCR、提取 YouTube 轉錄本或處理批量文件時使用。支持 20 多种格式,包括 DOCX、XLSX、PPTX、PDF、HTML、EPUB、CSV、JSON、带 OCR 的图像以及带转录的音频。 來源:smallnest/langgraphgo。