Einführung in Imagen 3 über die Gemini API

Imagen 3, das neueste Text-zu-Bild-Modell von Google über die Gemini API, bietet verbesserte Bildgenerierungsfähigkeiten, einschließlich besserer Details, Beleuchtung und Textdarstellung sowie eine breitere Palette von Stilen und Formaten.

Verbesserte Bildgenerierung

Imagen 3 erzeugt qualitativ hochwertigere Bilder im Vergleich zu seinen Vorgängern, mit besseren Details, Beleuchtung und weniger Artefakten. Es zeichnet sich auch durch die Darstellung von Text innerhalb von Bildern aus.

Flexible Prompting und Kontrolle

Die API ermöglicht natürliche Sprachprompts, negatives Prompting (Angabe von Elementen, die ausgeschlossen werden sollen), Kontrolle über die Anzahl der generierten Bilder (bis zu vier), das Seitenverhältnis und die Sicherheitsfilterstufen. Sie bietet auch Kontrolle über die Darstellung von Personen in generierten Bildern.

Mehrsprachige Unterstützung und Wasserzeichen

Das Modell unterstützt Prompts in mehreren Sprachen, darunter Englisch, Chinesisch, Spanisch, Japanisch und Koreanisch. Alle generierten Bilder enthalten ein eingebettetes, nicht sichtbares SynthID-Wasserzeichen.

API-Implementierung (Python)

Der Zugriff auf Imagen 3 erfordert einen spezifischen Branch des Python Gemini API SDK. Benutzer geben Prompts und Parameter über die Funktion generate_images an und erhalten Bildobjekte, die dann angezeigt werden können.

Quelle(n):

Google AI für Entwickler. Bilder mit Imagen 3 generieren