Introduction à Imagen 3 via l'API Gemini

Imagen 3, le dernier modèle de génération d'images à partir de texte de Google via l'API Gemini, offre des capacités améliorées de génération d'images, incluant des détails, un éclairage et un rendu de texte supérieurs, ainsi qu'une plus grande variété de styles et de formats.

Génération d'images améliorée

Imagen 3 produit des images de qualité supérieure par rapport à ses prédécesseurs, avec de meilleurs détails, un éclairage plus réaliste et moins d'artefacts. Il excelle également dans le rendu du texte au sein des images.

Prompting flexible et contrôle

L'API permet des prompts en langage naturel, des prompts négatifs (spécifiant des éléments à exclure), un contrôle sur le nombre d'images générées (jusqu'à quatre), le ratio d'aspect et les niveaux de filtrage de sécurité. Elle offre également un contrôle sur la représentation des personnes dans les images générées.

Support multilingue et filigrane

Le modèle prend en charge les prompts dans plusieurs langues, notamment l'anglais, le chinois, l'espagnol, le japonais et le coréen. Toutes les images générées contiennent un filigrane SynthID intégré et non visible.

Implémentation de l'API (Python)

L'accès à Imagen 3 nécessite une branche spécifique du SDK Python de l'API Gemini. Les utilisateurs fournissent des prompts et des paramètres via la fonction generate_images, recevant des objets image qui peuvent ensuite être affichés.

Source(s) :

Google AI for Developers. Generate images using Imagen 3