Microsoft's Python utility for converting various file formats to Markdown for LLM and text analysis pipelines.
MarkItDown converts documents while preserving structure (headings, lists, tables, links). It's optimized for LLM consumption rather than human-readable output.
| Documents | PDF, Word (DOCX), PowerPoint (PPTX), Excel (XLSX, XLS) | | Media | Images (EXIF + OCR), Audio (WAV, MP3 transcription) | | Web | HTML, YouTube URLs, Wikipedia, RSS/Atom feeds | | Data | CSV, JSON, XML, Jupyter notebooks (.ipynb) | | Archives | ZIP (iterates contents), EPub | | Email | Outlook MSG files |
Guida per l'utilizzo di Microsoft MarkItDown: un'utilità Python per convertire file in Markdown. Da utilizzare per convertire PDF, Word, PowerPoint, Excel, immagini, audio, HTML, CSV, JSON, XML, ZIP, URL di YouTube, EPub, quaderni Jupyter, feed RSS o pagine Wikipedia nel formato Markdown. Utilizzabile anche per pipeline di elaborazione di documenti, preelaborazione LLM o attività di estrazione di testo. Fonte: julianobarbosa/claude-code-skills.