ما هي blip-2-vision-language؟
إطار تدريب ما قبل الرؤية واللغة يربط بين برامج تشفير الصور المجمدة وLLMs. استخدمه عندما تحتاج إلى تعليق للصور، أو إجابة مرئية للأسئلة، أو استرجاع نص الصورة، أو الدردشة متعددة الوسائط مع أداء متطور بدون لقطة. المصدر: orchestra-research/ai-research-skills.