MarkItDown is a Python utility that converts various file formats into Markdown format, optimized for use with large language models and text analysis pipelines. It preserves document structure (headings, lists, tables, hyperlinks) while producing clean, token-efficient Markdown output.
Convert Office documents and PDFs to Markdown while preserving structure.
See references/documentconversion.md for detailed documentation on document-specific features.
다양한 파일 형식(PDF, Office 문서, 이미지, 오디오, 웹 콘텐츠, 구조화된 데이터)을 LLM 처리에 최적화된 Markdown으로 변환합니다. 문서를 마크다운으로 변환하고, PDF/Office 파일에서 텍스트를 추출하고, 오디오를 기록하고, 이미지에 OCR을 수행하고, YouTube 기록을 추출하거나 파일 배치를 처리할 때 사용합니다. DOCX, XLSX, PPTX, PDF, HTML, EPUB, CSV, JSON, OCR이 포함된 이미지, 전사가 포함된 오디오를 포함한 20개 이상의 형식을 지원합니다. 출처: smallnest/langgraphgo.