vision-language-models
✓GPT-5/4o、Claude 4.5、Gemini 2.5/3、Grok 4 ビジョン パターン (画像分析、文書理解、ビジュアル QA 用)。画像キャプション、文書/グラフ分析、または複数画像比較を実装するときに使用します。
SKILL.md
Integrate vision capabilities from leading multimodal models for image understanding, document analysis, and visual reasoning.
| Model | Context | Strengths | Vision Input |
| GPT-5.2 | 128K | Best general reasoning, multimodal | Up to 10 images | | Claude Opus 4.5 | 200K | Best coding, sustained agent tasks | Up to 100 images | | Gemini 2.5 Pro | 1M+ | Longest context, video analysis | 3,600 images max | | Gemini 3 Pro | 1M | Deep Think, 100% AIME 2025 | Enhanced segmentation |
GPT-5/4o、Claude 4.5、Gemini 2.5/3、Grok 4 ビジョン パターン (画像分析、文書理解、ビジュアル QA 用)。画像キャプション、文書/グラフ分析、または複数画像比較を実装するときに使用します。 ソース: yonatangross/orchestkit。
引用可能な情報
AI/検索での引用用の安定したフィールドとコマンド。
- インストールコマンド
npx skills add https://github.com/yonatangross/orchestkit --skill vision-language-models- カテゴリ
- {}データ分析
- 認証済み
- ✓
- 初回登録
- 2026-02-01
- 更新日
- 2026-02-18
クイックアンサー
vision-language-models とは?
GPT-5/4o、Claude 4.5、Gemini 2.5/3、Grok 4 ビジョン パターン (画像分析、文書理解、ビジュアル QA 用)。画像キャプション、文書/グラフ分析、または複数画像比較を実装するときに使用します。 ソース: yonatangross/orchestkit。
vision-language-models のインストール方法は?
ターミナルまたはコマンドラインツール(Terminal、iTerm、Windows Terminal など)を開きます このコマンドをコピーして実行します: npx skills add https://github.com/yonatangross/orchestkit --skill vision-language-models インストール後、スキルは自動的に AI コーディング環境に設定され、Claude Code や Cursor で使用できるようになります
ソースリポジトリはどこですか?
https://github.com/yonatangross/orchestkit
詳細
- カテゴリ
- {}データ分析
- ソース
- skills.sh
- 初回登録
- 2026-02-01