Uses Gemini's multimodal capabilities to understand and edit images via natural language. The model takes the source image and a text prompt describing the desired edit, then generates a new image with the changes applied.
Semantic masking: Instead of requiring precise pixel masks, describe what to change in your prompt. The model understands context and can target specific regions.
Optional mask images: You can still provide a mask image (white = edit area) as a visual hint, but it's not required. Descriptive prompts often work better.
Diese Fähigkeit sollte verwendet werden, wenn der Benutzer „Bild bearbeiten“, „Foto ändern“, „Inpaint“, „Outpaint“, „Bild erweitern“, „Objekt im Bild ersetzen“, „Element zum Bild hinzufügen“, „Bildgröße für soziale Medien ändern“, „Bild zuschneiden“, „Bild für Twitter anpassen“, „Bild in OG-Format konvertieren“ auffordert oder eine KI-gestützte Bildbearbeitung mit Masken benötigt. Quelle: b-open-io/gemskills.