大型語言和視覺助理。實現視覺指令調整和基於影像的對話。將 CLIP 視覺編碼器與 Vicuna/LLaMA 語言模型結合。支援多輪影像聊天、視覺化問答、跟隨指令。用於視覺語言聊天機器人或影像理解任務。最適合對話式影像分析。
SKILL.md
Open-source vision-language model for conversational image understanding.
| LLaVA-v1.5-7B | 7B | 14 GB | Good | | LLaVA-v1.5-13B | 13B | 28 GB | Better | | LLaVA-v1.6-34B | 34B | 70 GB | Best |
| Model | VRAM (FP16) | VRAM (4-bit) | Speed (tokens/s) |
大型語言和視覺助理。實現視覺指令調整和基於影像的對話。將 CLIP 視覺編碼器與 Vicuna/LLaMA 語言模型結合。支援多輪影像聊天、視覺化問答、跟隨指令。用於視覺語言聊天機器人或影像理解任務。最適合對話式影像分析。 來源:orchestra-research/ai-research-skills。
可引用資訊
為搜尋與 AI 引用準備的穩定欄位與指令。
- 安裝指令
npx skills add https://github.com/orchestra-research/ai-research-skills --skill llava- 分類
- {}資料分析
- 認證
- ✓
- 收錄時間
- 2026-02-11
- 更新時間
- 2026-02-18
快速解答
什麼是 llava?
大型語言和視覺助理。實現視覺指令調整和基於影像的對話。將 CLIP 視覺編碼器與 Vicuna/LLaMA 語言模型結合。支援多輪影像聊天、視覺化問答、跟隨指令。用於視覺語言聊天機器人或影像理解任務。最適合對話式影像分析。 來源:orchestra-research/ai-research-skills。
如何安裝 llava?
開啟你的終端機或命令列工具(如 Terminal、iTerm、Windows Terminal 等) 複製並執行以下指令:npx skills add https://github.com/orchestra-research/ai-research-skills --skill llava 安裝完成後,技能將自動設定到你的 AI 程式設計環境中,可以在 Claude Code 或 Cursor 中使用
這個 Skill 的原始碼在哪?
https://github.com/orchestra-research/ai-research-skills
詳情
- 分類
- {}資料分析
- 來源
- skills.sh
- 收錄時間
- 2026-02-11