Introducción a Imagen 3 a través de la API de Gemini

Imagen 3, el último modelo de texto a imagen de Google a través de la API de Gemini, ofrece capacidades mejoradas de generación de imágenes, incluyendo detalles mejorados, iluminación y renderizado de texto, junto con una gama más amplia de estilos y formatos.

Generación de imágenes mejorada

Imagen 3 produce imágenes de mayor calidad en comparación con sus predecesores, destacándose por mejores detalles, iluminación y menos artefactos. También sobresale en la representación de texto dentro de las imágenes.

Control y solicitudes flexibles

La API permite solicitudes en lenguaje natural, solicitudes negativas (especificar elementos a excluir), control sobre el número de imágenes generadas (hasta cuatro), la relación de aspecto y los niveles de filtrado de seguridad. También ofrece control sobre la representación de personas en las imágenes generadas.

Soporte multilingüe y marca de agua

El modelo admite solicitudes en varios idiomas, incluyendo inglés, chino, español, japonés y coreano. Todas las imágenes generadas contienen una marca de agua SynthID incrustada y no visible.

Implementación de la API (Python)

Acceder a Imagen 3 requiere una rama específica del SDK de la API de Gemini para Python. Los usuarios proporcionan solicitudes y parámetros a través de la función generate_images, recibiendo objetos de imagen que luego pueden ser mostrados.

Fuente(s):

Google AI for Developers. Generate images using Imagen 3