Microsoft's Python utility for converting various file formats to Markdown for LLM and text analysis pipelines.
MarkItDown converts documents while preserving structure (headings, lists, tables, links). It's optimized for LLM consumption rather than human-readable output.
| Documents | PDF, Word (DOCX), PowerPoint (PPTX), Excel (XLSX, XLS) | | Media | Images (EXIF + OCR), Audio (WAV, MP3 transcription) | | Web | HTML, YouTube URLs, Wikipedia, RSS/Atom feeds | | Data | CSV, JSON, XML, Jupyter notebooks (.ipynb) | | Archives | ZIP (iterates contents), EPub | | Email | Outlook MSG files |
دليل لاستخدام Microsoft MarkItDown - أداة مساعدة Python لتحويل الملفات إلى Markdown. يُستخدم عند تحويل ملفات PDF أو Word أو PowerPoint أو Excel أو الصور أو الصوت أو HTML أو CSV أو JSON أو XML أو ZIP أو عناوين URL على YouTube أو EPubs أو دفاتر Jupyter أو خلاصات RSS أو صفحات Wikipedia إلى تنسيق Markdown. يُستخدم أيضًا في خطوط أنابيب معالجة المستندات أو المعالجة المسبقة لـ LLM أو مهام استخراج النص. المصدر: julianobarbosa/claude-code-skills.