Microsoft's Python utility for converting various file formats to Markdown for LLM and text analysis pipelines.
MarkItDown converts documents while preserving structure (headings, lists, tables, links). It's optimized for LLM consumption rather than human-readable output.
| Documents | PDF, Word (DOCX), PowerPoint (PPTX), Excel (XLSX, XLS) | | Media | Images (EXIF + OCR), Audio (WAV, MP3 transcription) | | Web | HTML, YouTube URLs, Wikipedia, RSS/Atom feeds | | Data | CSV, JSON, XML, Jupyter notebooks (.ipynb) | | Archives | ZIP (iterates contents), EPub | | Email | Outlook MSG files |
Руководство по использованию Microsoft MarkItDown — утилиты Python для преобразования файлов в Markdown. Используйте при преобразовании PDF, Word, PowerPoint, Excel, изображений, аудио, HTML, CSV, JSON, XML, ZIP, URL-адресов YouTube, EPub, блокнотов Jupyter, RSS-каналов или страниц Википедии в формат Markdown. Также используйте для конвейеров обработки документов, предварительной обработки LLM или задач извлечения текста. Источник: julianobarbosa/claude-code-skills.