·blip-2-vision-language
</>

blip-2-vision-language

إطار تدريب ما قبل الرؤية واللغة يربط بين برامج تشفير الصور المجمدة وLLMs. استخدمه عندما تحتاج إلى تعليق للصور، أو إجابة مرئية للأسئلة، أو استرجاع نص الصورة، أو الدردشة متعددة الوسائط مع أداء متطور بدون لقطة.

40التثبيتات·2الرائج·@orchestra-research

التثبيت

$npx skills add https://github.com/orchestra-research/ai-research-skills --skill blip-2-vision-language

كيفية تثبيت blip-2-vision-language

ثبّت مهارة الذكاء الاصطناعي blip-2-vision-language بسرعة في بيئة التطوير لديك عبر سطر الأوامر

  1. افتح الطرفية: افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal
  2. نفّذ أمر التثبيت: انسخ ونفّذ هذا الأمر: npx skills add https://github.com/orchestra-research/ai-research-skills --skill blip-2-vision-language
  3. تحقق من التثبيت: بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

المصدر: orchestra-research/ai-research-skills.

Comprehensive guide to using Salesforce's BLIP-2 for vision-language tasks with frozen image encoders and large language models.

| Model | LLM Backend | Size | Use Case |

| blip2-opt-2.7b | OPT-2.7B | 4GB | General captioning, VQA | | blip2-opt-6.7b | OPT-6.7B | 8GB | Better reasoning | | blip2-flan-t5-xl | FlanT5-XL | 5GB | Instruction following | | blip2-flan-t5-xxl | FlanT5-XXL | 13GB | Best quality |

إطار تدريب ما قبل الرؤية واللغة يربط بين برامج تشفير الصور المجمدة وLLMs. استخدمه عندما تحتاج إلى تعليق للصور، أو إجابة مرئية للأسئلة، أو استرجاع نص الصورة، أو الدردشة متعددة الوسائط مع أداء متطور بدون لقطة. المصدر: orchestra-research/ai-research-skills.

حقائق جاهزة للاقتباس

حقول وأوامر مستقرة للاقتباس في أنظمة الذكاء الاصطناعي والبحث.

أمر التثبيت
npx skills add https://github.com/orchestra-research/ai-research-skills --skill blip-2-vision-language
الفئة
</>أدوات التطوير
موثق
أول ظهور
2026-02-11
آخر تحديث
2026-03-10

Browse more skills from orchestra-research/ai-research-skills

إجابات سريعة

ما هي blip-2-vision-language؟

إطار تدريب ما قبل الرؤية واللغة يربط بين برامج تشفير الصور المجمدة وLLMs. استخدمه عندما تحتاج إلى تعليق للصور، أو إجابة مرئية للأسئلة، أو استرجاع نص الصورة، أو الدردشة متعددة الوسائط مع أداء متطور بدون لقطة. المصدر: orchestra-research/ai-research-skills.

كيف أثبّت blip-2-vision-language؟

افتح الطرفية أو أداة سطر الأوامر لديك مثل Terminal أو iTerm أو Windows Terminal انسخ ونفّذ هذا الأمر: npx skills add https://github.com/orchestra-research/ai-research-skills --skill blip-2-vision-language بعد التثبيت، سيتم إعداد المهارة تلقائيا في بيئة البرمجة بالذكاء الاصطناعي لديك وتصبح جاهزة للاستخدام في Claude Code أو Cursor أو OpenClaw

أين مستودع المصدر؟

https://github.com/orchestra-research/ai-research-skills

التفاصيل

الفئة
</>أدوات التطوير
المصدر
skills.sh
أول ظهور
2026-02-11