ما هي multimodal-ai؟
أنماط لبناء تطبيقات الذكاء الاصطناعي متعددة الوسائط التي تجمع بين النصوص والصور والصوت والفيديو. يغطي واجهات برمجة تطبيقات الرؤية والنسخ الصوتي وخطوط الأنابيب الموحدة. يُستخدم عند "الذكاء الاصطناعي متعدد الوسائط، وواجهة برمجة تطبيقات الرؤية، وفهم الصور، وGPT-4V، ورؤية كلود، والنسخ الصوتي، والهمس، واستخراج المستندات، وتحويل الصورة إلى نص"، حسبما ذكر. المصدر: omer-metin/skills-for-antigravity.