ما هي ai-multimodal؟
معالجة الذكاء الاصطناعي متعدد الوسائط عبر Google Gemini API (سياق 2M من الرموز المميزة). القدرات: الصوت (النسخ، 9.5 ساعة كحد أقصى، التلخيص، تحليل الموسيقى)، الصور (التسميات التوضيحية، التعرف الضوئي على الحروف، اكتشاف الكائنات، التجزئة، الأسئلة والأجوبة المرئية)، الفيديو (اكتشاف المشهد، 6 ساعات كحد أقصى، عناوين URL على YouTube، التحليل الزمني)، المستندات (استخراج PDF، الجداول، النماذج، الرسوم البيانية)، إنشاء الصور (تحويل النص إلى صورة، التحرير). الإجراءات: النسخ والتحليل والاستخراج والتسمية التوضيحية والكشف والتقسيم والتوليد من الوسائط. الكلمات الرئيسية: Gemini API، النسخ الصوتي، التعليق على الصور، التعرف الضوئي على الحروف، اكتشاف الكائنات، تحليل الفيديو، استخراج PDF، تحويل النص إلى صورة، الوسائط المتعددة، التعرف على الكلام، الأسئلة والأجوبة المرئية، اكتشاف المشهد، نسخ YouTube، استخراج الجدول، معالجة النماذج، إنشاء الصور، Imagen. يُستخدم عندما: نسخ الصوت/الفيديو، وتحليل الصور/لقطات الشاشة، واستخراج البيانات من ملفات PDF، ومعالجة مقاطع فيديو YouTube، وإنشاء صور من النص، وتنفيذ ميزات الذكاء الاصطناعي متعددة الوسائط. المصدر: samhvw8/dot-claude.