Uses Gemini's multimodal capabilities to understand and edit images via natural language. The model takes the source image and a text prompt describing the desired edit, then generates a new image with the changes applied.
Semantic masking: Instead of requiring precise pixel masks, describe what to change in your prompt. The model understands context and can target specific regions.
Optional mask images: You can still provide a mask image (white = edit area) as a visual hint, but it's not required. Descriptive prompts often work better.
Cette compétence doit être utilisée lorsque l'utilisateur demande « éditer une image », « modifier une photo », « peindre », « peindre », « étendre une image », « remplacer un objet dans l'image », « ajouter un élément à l'image », « redimensionner l'image pour les médias sociaux », « recadrer l'image », « adapter l'image pour Twitter », « convertir l'image au format OG » ou a besoin d'une édition d'image alimentée par l'IA avec des masques. Source : b-open-io/gemskills.