ما هي multimodal-models؟
يُستخدم عند "CLIP"، و"Whisper"، و"Stable Diffusion"، و"SDXL"، و"تحويل الكلام إلى نص"، و"تحويل النص إلى صورة"، و"إنشاء الصور"، و"النسخ"، و"تصنيف اللقطة الصفرية"، و"تشابه الصورة والنص"، و"inpainting"، و"ControlNet" المصدر: eyadsibai/ltk.