Convert various document formats to clean Markdown using Microsoft's MarkItDown tool. Optimized for LLM processing, content extraction, and document analysis workflows.
Supported Formats: PDF, Word (.docx), PowerPoint (.pptx), Excel (.xlsx/.xls), Images (with OCR/LLM), HTML, Audio (with transcription), CSV, JSON, XML, ZIP archives, EPubs
| PDF | Reports, papers | md.convert("file.pdf") | | Word | Documents | md.convert("file.docx") | | Excel | Data tables | md.convert("file.xlsx") | | PowerPoint | Presentations | md.convert("file.pptx") | | Images | Diagrams with OCR | md = MarkItDown(llmclient=client); md.convert("img.jpg") | | HTML | Web pages | md.convert("page.html") |
تحويل المستندات (PDF، Word، Excel، PowerPoint، الصور، HTML) إلى Markdown باستخدام microsoft/markitdown. يُستخدم لتحليل المستندات، أو استخراج المحتوى، أو المعالجة المسبقة لـ LLMs، أو تحويل المستندات المجمعة. يدعم الصور مع أوصاف OCR/LLM، والنسخ الصوتي، وأرشيفات ZIP. المصدر: rysweet/amplihack.