ما هي vision-language-models؟
GPT-5/4o، Claude 4.5، Gemini 2.5/3، Grok 4 أنماط الرؤية لتحليل الصور وفهم المستندات وضمان الجودة المرئية. يُستخدم عند تنفيذ التسميات التوضيحية للصور، أو تحليل المستندات/المخططات، أو مقارنة الصور المتعددة. المصدر: yonatangross/orchestkit.