Uses Gemini's multimodal capabilities to understand and edit images via natural language. The model takes the source image and a text prompt describing the desired edit, then generates a new image with the changes applied.
Semantic masking: Instead of requiring precise pixel masks, describe what to change in your prompt. The model understands context and can target specific regions.
Optional mask images: You can still provide a mask image (white = edit area) as a visual hint, but it's not required. Descriptive prompts often work better.
Esta habilidad debe usarse cuando el usuario solicita "editar una imagen", "modificar una foto", "pintar", "repintar", "extender una imagen", "reemplazar objeto en la imagen", "agregar elemento a la imagen", "cambiar el tamaño de la imagen para las redes sociales", "recortar la imagen", "adaptar la imagen para Twitter", "convertir la imagen al formato OG" o necesita edición de imágenes con máscaras impulsada por IA. Fuente: b-open-io/gemskills.