- Veröffentlicht am
Bewertung der Textgenauigkeit in KI-generierten Bildern: Ein Vergleich von DALL-E 3 und Mistral

Einführung
Die Textgenauigkeit in KI-generierten Bildern ist ein entscheidender Faktor für Anwendungen, die eine genaue und wörtliche Darstellung von Eingabeaufforderungen erfordern. Diese Bewertung zielt darauf ab, die Fähigkeiten von Mistral und DALL-E 3 zu vergleichen, Bilder zu generieren, die den angegebenen Text treu wiedergeben. Anwendungen wie Präsentationen, Bildungsmaterialien und Marketingfolien erfordern oft eine präzise Textdarstellung innerhalb von Visualisierungen, was diese Bewertung entscheidend macht. Das Ziel ist es, festzustellen, welches Modell in Bezug auf Textgenauigkeit, Klarheit und allgemeine Einhaltung der gegebenen Prompts besser abschneidet, wobei OCR (Optical Character Recognition) mit GPT-4o zur Überprüfung verwendet wird.
Bewertungsmethodik
Dieser Beitrag bewertet die Leistung von zwei Modellen, DALL-E 3 und Mistral, bei der Generierung eines Bildes, das exakt den in einem gegebenen Prompt angegebenen Text enthält. Um die Ergebnisse zu bewerten, wurden die OCR (Optical Character Recognition)-Fähigkeiten von GPT-4o verwendet, um den generierten Text zu extrahieren und zu vergleichen.
Die Bewertung folgt diesen Schritten:
- Prompt-Konsistenz: Der gleiche Prompt wird beiden Modellen gegeben, mit der Anweisung, ein Bild mit einer exakten Liste von Wörtern zu generieren.
- Prompt-Variation: Drei verschiedene Prompts werden verwendet, mit den gleichen Anweisungen, aber unterschiedlichen Wortlisten.
- Bilder generieren mit:
- DALL-E 3 über die OpenAI API mit einem Python-Skript.
- Mistral Chat über die webbasierte Chat-Oberfläche unter chat.mistral.ai.
- Text aus den generierten Bildern extrahieren mit:
- GPT-4o über ein Python-Skript für OCR unter Verwendung der OpenAI API. Hinweis: Die Verwendung der GPT API erfordert einen aktiven OpenAI API-Schlüssel, der im Skript für die Authentifizierung und die Verarbeitung von Anfragen konfiguriert ist. Dies gilt für die Schritte 3 und 4.
Bildgenerierung und Ergebnisse
Prompt 1: Large Language Models (LLMs)
"Ein sauberes und professionelles Präsentationsfolien-Design mit dem Titel 'Large Language Models (LLMs)' oben in der Mitte. Darunter genau diese und nur diese Namen von LLMs als Aufzählungspunkte auflisten: 'Mistral,' 'ChatGPT,' 'Claude,' 'LLaMA,' 'Gemini,' und 'Falcon.' Verwenden Sie einen einfachen weißen Hintergrund mit einfachem schwarzem Text, um Klarheit zu gewährleisten, und keine weiteren Texte oder dekorativen Elemente."


Prompt 2: Unternehmensstruktur
"Ein sauberes und professionelles Präsentationsfolien-Design mit dem Titel 'Unternehmensstruktur' oben in der Mitte. Darunter genau diese und nur diese Abteilungsnamen als Aufzählungspunkte auflisten: 'Human Resources,' 'Finance,' 'Marketing,' 'Sales,' 'Operations,' und 'Research & Development.' Verwenden Sie einen einfachen weißen Hintergrund mit einfachem schwarzem Text, um Klarheit zu gewährleisten, und keine weiteren Texte oder dekorativen Elemente."


Prompt 3: Universitätsabteilungen
"Ein sauberes und professionelles Präsentationsfolien-Design mit dem Titel 'Universitätsabteilungen' oben in der Mitte. Darunter genau diese und nur diese Universitätsabteilungen als Aufzählungspunkte auflisten: 'Computer Science,' 'Mathematics,' 'Physics,' 'Biology,' 'Economics,' und 'History.' Verwenden Sie einen einfachen weißen Hintergrund mit einfachem schwarzem Text, um Klarheit zu gewährleisten, und keine weiteren Texte oder dekorativen Elemente."


Ergebnisse
Die folgenden OCR-Ergebnisse wurden mit GPT-4o erhalten:
Prompt 1
Modell | Extrahieter Text |
---|---|
DALL-E 3 | LARGE LANGUAGE MODELS, MISTRAL, CLAUDE, LLAMA, GEANI, Oragrtrdle, Claude, Clamie, Falmi |
Mistral | Large Language Models (LLMs), Mistral, ChatGPT, Clude LLaMA, Gemini, Falcon |
Prompt 2
Modell | Extrahieter Text |
---|---|
DALL-E 3 | COMPANY STRUCTURE, FINANCING, OPERATIONS, FINANCE, SALES, HUMAN RESOURCES, MARKETING RESOURCES, RSOMES & OPERATIONS, Research & Development, Marketing & Developity, Research & Development |
Mistral | Unternehmensstruktur, Human Resources, Marketing, Sales, Operations, Research & Development |
Prompt 3
Modell | Extrahieter Text |
---|---|
DALL-E 3 | UNIVERSITY DEPARTMENTS, Computter, Sciences, Matematics, Physics, Physisc, Bconomis, Ecoooms, History |
Mistral | Universitätsabteilungen, Computer Science, Mathematics, Physics, Biology, Economics, History |
Fazit
Diese Bewertung hebt die Stärken und Schwächen von DALL-E 3 und Mistral bei der Generierung von präzisem Text in Bildern hervor. Die wichtigsten Erkenntnisse sind:
- Mistral zeigt eine größere Textgenauigkeit und Einhaltung der Prompts im Vergleich zu DALL-E 3, das oft Fehler oder Unstimmigkeiten im generierten Text einführte. Änderungen am Prompt könnten die Ergebnisse von DALL-E 3 verbessern; jedoch wäre eine weitere Untersuchung erforderlich, um dies zu validieren, was den Rahmen dieser Bewertung überschreitet.
- Die Verwendung der OpenAI API für DALL-E 3 war unkompliziert.
- OCR über die GPT-4o mit der OpenAI API funktionierte einwandfrei und extrahierte den Text aus den generierten Bildern genau, selbst in komplexen Fällen, was es zu einem zuverlässigen Bewertungstool macht.
In einem kommenden Beitrag werde ich die Python-Skripte teilen, die sowohl für die Bildgenerierung als auch für die OCR verwendet wurden, und Einblicke geben, wie diese Tools effektiv in ähnlichen Bewertungen implementiert werden können.
Hat Ihnen dieser Beitrag gefallen? Fanden Sie ihn hilfreich? Hinterlassen Sie gerne einen Kommentar unten, um Ihre Gedanken zu teilen oder Fragen zu stellen. Ein GitHub-Konto ist erforderlich, um an der Diskussion teilzunehmen.