·vision-language-models
{}

vision-language-models

Modelli di visione GPT-5/4o, Claude 4.5, Gemini 2.5/3, Grok 4 per l'analisi delle immagini, la comprensione dei documenti e il QA visivo. Da utilizzare quando si implementano didascalie di immagini, analisi di documenti/grafici o confronti di più immagini.

13Installazioni·0Tendenza·@yonatangross

Installazione

$npx skills add https://github.com/yonatangross/orchestkit --skill vision-language-models

Come installare vision-language-models

Installa rapidamente la skill AI vision-language-models nel tuo ambiente di sviluppo tramite riga di comando

  1. Apri il terminale: Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.)
  2. Esegui il comando di installazione: Copia ed esegui questo comando: npx skills add https://github.com/yonatangross/orchestkit --skill vision-language-models
  3. Verifica l'installazione: Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Fonte: yonatangross/orchestkit.

Integrate vision capabilities from leading multimodal models for image understanding, document analysis, and visual reasoning.

| Model | Context | Strengths | Vision Input |

| GPT-5.2 | 128K | Best general reasoning, multimodal | Up to 10 images | | Claude Opus 4.5 | 200K | Best coding, sustained agent tasks | Up to 100 images | | Gemini 2.5 Pro | 1M+ | Longest context, video analysis | 3,600 images max | | Gemini 3 Pro | 1M | Deep Think, 100% AIME 2025 | Enhanced segmentation |

Modelli di visione GPT-5/4o, Claude 4.5, Gemini 2.5/3, Grok 4 per l'analisi delle immagini, la comprensione dei documenti e il QA visivo. Da utilizzare quando si implementano didascalie di immagini, analisi di documenti/grafici o confronti di più immagini. Fonte: yonatangross/orchestkit.

Fatti (pronti per citazione)

Campi e comandi stabili per citazioni AI/ricerca.

Comando di installazione
npx skills add https://github.com/yonatangross/orchestkit --skill vision-language-models
Categoria
{}Analisi
Verificato
Prima apparizione
2026-02-01
Aggiornato
2026-03-10

Browse more skills from yonatangross/orchestkit

Risposte rapide

Che cos'è vision-language-models?

Modelli di visione GPT-5/4o, Claude 4.5, Gemini 2.5/3, Grok 4 per l'analisi delle immagini, la comprensione dei documenti e il QA visivo. Da utilizzare quando si implementano didascalie di immagini, analisi di documenti/grafici o confronti di più immagini. Fonte: yonatangross/orchestkit.

Come installo vision-language-models?

Apri il tuo terminale o strumento da riga di comando (Terminal, iTerm, Windows Terminal, ecc.) Copia ed esegui questo comando: npx skills add https://github.com/yonatangross/orchestkit --skill vision-language-models Dopo l'installazione, la skill verrà configurata automaticamente nel tuo ambiente AI di coding e sarà pronta all'uso in Claude Code, Cursor o OpenClaw

Dov'è il repository sorgente?

https://github.com/yonatangross/orchestkit