- Publicado el
Imagen 3, el último modelo de texto a imagen de Google a través de la API de Gemini, ofrece capacidades mejoradas de generación de imágenes, incluyendo detalles mejorados, iluminación y renderizado de texto, junto con una gama más amplia de estilos y formatos.
Generación de imágenes mejorada
Imagen 3 produce imágenes de mayor calidad en comparación con sus predecesores, destacándose por mejores detalles, iluminación y menos artefactos. También sobresale en la representación de texto dentro de las imágenes.
Control y solicitudes flexibles
La API permite solicitudes en lenguaje natural, solicitudes negativas (especificar elementos a excluir), control sobre el número de imágenes generadas (hasta cuatro), la relación de aspecto y los niveles de filtrado de seguridad. También ofrece control sobre la representación de personas en las imágenes generadas.
Soporte multilingüe y marca de agua
El modelo admite solicitudes en varios idiomas, incluyendo inglés, chino, español, japonés y coreano. Todas las imágenes generadas contienen una marca de agua SynthID incrustada y no visible.
Implementación de la API (Python)
Acceder a Imagen 3 requiere una rama específica del SDK de la API de Gemini para Python. Los usuarios proporcionan solicitudes y parámetros a través de la función generate_images, recibiendo objetos de imagen que luego pueden ser mostrados.