Veröffentlicht am

Bewertung der Textgenauigkeit in KI-generierten Bildern: Ein Vergleich von DALL-E 3 und Mistral

5 min read
Autoren
  • Profile picture of aithemes.net
    Name
    aithemes.net
    Twitter
Post Image

Einführung

Die Textgenauigkeit in KI-generierten Bildern ist ein entscheidender Faktor für Anwendungen, die eine genaue und wörtliche Darstellung von Eingabeaufforderungen erfordern. Diese Bewertung zielt darauf ab, die Fähigkeiten von Mistral und DALL-E 3 zu vergleichen, Bilder zu generieren, die den angegebenen Text treu wiedergeben. Anwendungen wie Präsentationen, Bildungsmaterialien und Marketingfolien erfordern oft eine präzise Textdarstellung innerhalb von Visualisierungen, was diese Bewertung entscheidend macht. Das Ziel ist es, festzustellen, welches Modell in Bezug auf Textgenauigkeit, Klarheit und allgemeine Einhaltung der gegebenen Prompts besser abschneidet, wobei OCR (Optical Character Recognition) mit GPT-4o zur Überprüfung verwendet wird.

Bewertungsmethodik

Dieser Beitrag bewertet die Leistung von zwei Modellen, DALL-E 3 und Mistral, bei der Generierung eines Bildes, das exakt den in einem gegebenen Prompt angegebenen Text enthält. Um die Ergebnisse zu bewerten, wurden die OCR (Optical Character Recognition)-Fähigkeiten von GPT-4o verwendet, um den generierten Text zu extrahieren und zu vergleichen.

Die Bewertung folgt diesen Schritten:

  1. Prompt-Konsistenz: Der gleiche Prompt wird beiden Modellen gegeben, mit der Anweisung, ein Bild mit einer exakten Liste von Wörtern zu generieren.
  2. Prompt-Variation: Drei verschiedene Prompts werden verwendet, mit den gleichen Anweisungen, aber unterschiedlichen Wortlisten.
  3. Bilder generieren mit:
    • DALL-E 3 über die OpenAI API mit einem Python-Skript.
    • Mistral Chat über die webbasierte Chat-Oberfläche unter chat.mistral.ai.
  4. Text aus den generierten Bildern extrahieren mit:
    • GPT-4o über ein Python-Skript für OCR unter Verwendung der OpenAI API. Hinweis: Die Verwendung der GPT API erfordert einen aktiven OpenAI API-Schlüssel, der im Skript für die Authentifizierung und die Verarbeitung von Anfragen konfiguriert ist. Dies gilt für die Schritte 3 und 4.

Bildgenerierung und Ergebnisse

Prompt 1: Large Language Models (LLMs)

"Ein sauberes und professionelles Präsentationsfolien-Design mit dem Titel 'Large Language Models (LLMs)' oben in der Mitte. Darunter genau diese und nur diese Namen von LLMs als Aufzählungspunkte auflisten: 'Mistral,' 'ChatGPT,' 'Claude,' 'LLaMA,' 'Gemini,' und 'Falcon.' Verwenden Sie einen einfachen weißen Hintergrund mit einfachem schwarzem Text, um Klarheit zu gewährleisten, und keine weiteren Texte oder dekorativen Elemente."

DALL-E 3 Image for Prompt 1 Abbildung 1: Von DALL-E 3 generiertes Bild basierend auf dem Prompt für Large Language Models (LLMs).
Mistral Image for Prompt 1 Abbildung 2: Von Mistral generiertes Bild basierend auf dem Prompt für Large Language Models (LLMs).

Prompt 2: Unternehmensstruktur

"Ein sauberes und professionelles Präsentationsfolien-Design mit dem Titel 'Unternehmensstruktur' oben in der Mitte. Darunter genau diese und nur diese Abteilungsnamen als Aufzählungspunkte auflisten: 'Human Resources,' 'Finance,' 'Marketing,' 'Sales,' 'Operations,' und 'Research & Development.' Verwenden Sie einen einfachen weißen Hintergrund mit einfachem schwarzem Text, um Klarheit zu gewährleisten, und keine weiteren Texte oder dekorativen Elemente."

DALL-E 3 Image for Prompt 2 Abbildung 3: Von DALL-E 3 generiertes Bild basierend auf dem Prompt für Unternehmensstruktur.
Mistral Image for Prompt 2 Abbildung 4: Von Mistral generiertes Bild basierend auf dem Prompt für Unternehmensstruktur.

Prompt 3: Universitätsabteilungen

"Ein sauberes und professionelles Präsentationsfolien-Design mit dem Titel 'Universitätsabteilungen' oben in der Mitte. Darunter genau diese und nur diese Universitätsabteilungen als Aufzählungspunkte auflisten: 'Computer Science,' 'Mathematics,' 'Physics,' 'Biology,' 'Economics,' und 'History.' Verwenden Sie einen einfachen weißen Hintergrund mit einfachem schwarzem Text, um Klarheit zu gewährleisten, und keine weiteren Texte oder dekorativen Elemente."

DALL-E 3 Image for Prompt 3 Abbildung 5: Von DALL-E 3 generiertes Bild basierend auf dem Prompt für Universitätsabteilungen.
Mistral Image for Prompt 3 Abbildung 6: Von Mistral generiertes Bild basierend auf dem Prompt für Universitätsabteilungen.

Ergebnisse

Die folgenden OCR-Ergebnisse wurden mit GPT-4o erhalten:

Prompt 1

ModellExtrahieter Text
DALL-E 3LARGE LANGUAGE MODELS, MISTRAL, CLAUDE, LLAMA, GEANI, Oragrtrdle, Claude, Clamie, Falmi
MistralLarge Language Models (LLMs), Mistral, ChatGPT, Clude LLaMA, Gemini, Falcon

Prompt 2

ModellExtrahieter Text
DALL-E 3COMPANY STRUCTURE, FINANCING, OPERATIONS, FINANCE, SALES, HUMAN RESOURCES, MARKETING RESOURCES, RSOMES & OPERATIONS, Research & Development, Marketing & Developity, Research & Development
MistralUnternehmensstruktur, Human Resources, Marketing, Sales, Operations, Research & Development

Prompt 3

ModellExtrahieter Text
DALL-E 3UNIVERSITY DEPARTMENTS, Computter, Sciences, Matematics, Physics, Physisc, Bconomis, Ecoooms, History
MistralUniversitätsabteilungen, Computer Science, Mathematics, Physics, Biology, Economics, History

Fazit

Diese Bewertung hebt die Stärken und Schwächen von DALL-E 3 und Mistral bei der Generierung von präzisem Text in Bildern hervor. Die wichtigsten Erkenntnisse sind:

  • Mistral zeigt eine größere Textgenauigkeit und Einhaltung der Prompts im Vergleich zu DALL-E 3, das oft Fehler oder Unstimmigkeiten im generierten Text einführte. Änderungen am Prompt könnten die Ergebnisse von DALL-E 3 verbessern; jedoch wäre eine weitere Untersuchung erforderlich, um dies zu validieren, was den Rahmen dieser Bewertung überschreitet.
  • Die Verwendung der OpenAI API für DALL-E 3 war unkompliziert.
  • OCR über die GPT-4o mit der OpenAI API funktionierte einwandfrei und extrahierte den Text aus den generierten Bildern genau, selbst in komplexen Fällen, was es zu einem zuverlässigen Bewertungstool macht.

In einem kommenden Beitrag werde ich die Python-Skripte teilen, die sowohl für die Bildgenerierung als auch für die OCR verwendet wurden, und Einblicke geben, wie diese Tools effektiv in ähnlichen Bewertungen implementiert werden können.


Hat Ihnen dieser Beitrag gefallen? Fanden Sie ihn hilfreich? Hinterlassen Sie gerne einen Kommentar unten, um Ihre Gedanken zu teilen oder Fragen zu stellen. Ein GitHub-Konto ist erforderlich, um an der Diskussion teilzunehmen.