ما هي clip؟
نموذج OpenAI الذي يربط الرؤية واللغة. يتيح تصنيف الصور بدون لقطة، ومطابقة نص الصورة، واسترجاع الوسائط المتعددة. تم التدريب على 400 مليون زوج من الصور والنص. يُستخدم للبحث عن الصور، أو الإشراف على المحتوى، أو مهام لغة الرؤية دون ضبط دقيق. الأفضل لفهم الصور للأغراض العامة. المصدر: ovachiever/droid-tings.