Évaluation de la précision textuelle dans les images générées par IA : Une comparaison entre DALL-E 3 et Mistral

Introduction

La précision textuelle dans les images générées par IA est un facteur critique pour les applications nécessitant une représentation précise et littérale des prompts d'entrée. Cette évaluation vise à comparer les capacités de Mistral et DALL-E 3 à générer des images qui reproduisent fidèlement le texte spécifié. Les applications telles que les présentations, les supports éducatifs et les diapositives marketing nécessitent souvent une représentation textuelle précise dans les visuels, ce qui rend cette évaluation cruciale. L'objectif est de déterminer quel modèle performe le mieux en termes de précision textuelle, de clarté et d'adhésion globale aux prompts donnés, en utilisant OCR (Reconnaissance Optique de Caractères) avec GPT-4o pour la vérification.

Méthodologie d'évaluation

Ce post évalue la performance de deux modèles, DALL-E 3 et Mistral, dans la génération d'une image contenant un texte exact tel que spécifié dans un prompt donné. Pour évaluer les résultats, j'ai utilisé les capacités OCR (Reconnaissance Optique de Caractères) fournies par GPT-4o pour extraire et comparer le texte généré.

L'évaluation suit les étapes suivantes :

Consistance du prompt : Le même prompt est donné aux deux modèles avec des instructions pour générer une image avec une liste exacte de mots.
Variation du prompt : Trois prompts différents sont utilisés avec les mêmes instructions mais des listes de mots différentes.
Génération d'images en utilisant :
- DALL-E 3 via l'API OpenAI avec un script Python.
- Mistral Chat via son interface de chat web à l'adresse chat.mistral.ai.
Extraction du texte des images générées en utilisant :
- GPT-4o via un script Python pour l'OCR utilisant l'API OpenAI. Remarque : L'utilisation de l'API GPT nécessite une clé API OpenAI active, configurée dans le script pour l'authentification et le traitement des requêtes. Cela s'applique aux étapes 3 et 4.

Génération d'images et résultats

Prompt 1 : Modèles de Langage à Grande Échelle (LLMs)

"Une conception de diapositive de présentation propre et professionnelle avec le titre 'Modèles de Langage à Grande Échelle (LLMs)' en haut au centre. Ci-dessous, listez exactement ces noms de LLMs sous forme de points : 'Mistral,' 'ChatGPT,' 'Claude,' 'LLaMA,' 'Gemini,' et 'Falcon.' Utilisez un fond blanc uni avec un texte noir simple pour assurer la clarté, et aucun autre texte ou élément décoratif."

Figure 1 : Image générée par DALL-E 3 basée sur le prompt pour les Modèles de Langage à Grande Échelle (LLMs).

Figure 2 : Image générée par Mistral utilisant le prompt pour les Modèles de Langage à Grande Échelle (LLMs).

Prompt 2 : Structure de l'entreprise

"Une conception de diapositive de présentation propre et professionnelle avec le titre 'Structure de l'entreprise' en haut au centre. Ci-dessous, listez exactement ces noms de départements sous forme de points : 'Ressources Humaines,' 'Finance,' 'Marketing,' 'Ventes,' 'Opérations,' et 'Recherche & Développement.' Utilisez un fond blanc uni avec un texte noir simple pour assurer la clarté, et aucun autre texte ou élément décoratif."

Figure 3 : Image générée par DALL-E 3 basée sur le prompt pour la Structure de l'entreprise.

Figure 4 : Image générée par Mistral utilisant le prompt pour la Structure de l'entreprise.

Prompt 3 : Départements universitaires

"Une conception de diapositive de présentation propre et professionnelle avec le titre 'Départements universitaires' en haut au centre. Ci-dessous, listez exactement ces noms de départements universitaires sous forme de points : 'Informatique,' 'Mathématiques,' 'Physique,' 'Biologie,' 'Économie,' et 'Histoire.' Utilisez un fond blanc uni avec un texte noir simple pour assurer la clarté, et aucun autre texte ou élément décoratif."

Figure 5 : Image générée par DALL-E 3 basée sur le prompt pour les Départements universitaires.

Figure 6 : Image générée par Mistral utilisant le prompt pour les Départements universitaires.

Résultats

Voici les résultats OCR obtenus en utilisant GPT-4o :

Prompt 1

Modèle	Texte extrait
DALL-E 3	LARGE LANGUAGE MODELS, MISTRAL, CLAUDE, LLAMA, GEANI, Oragrtrdle, Claude, Clamie, Falmi
Mistral	Large Language Models (LLMs), Mistral, ChatGPT, Clude LLaMA, Gemini, Falcon

Prompt 2

Modèle	Texte extrait
DALL-E 3	COMPANY STRUCTURE, FINANCING, OPERATIONS, FINANCE, SALES, HUMAN RESOURCES, MARKETING RESOURCES, RSOMES & OPERATIONS, Research & Development, Marketing & Developity, Research & Development
Mistral	Company Structure, Human Resources, Marketing, Sales, Operations, Research & Development

Prompt 3

Modèle	Texte extrait
DALL-E 3	UNIVERSITY DEPARTMENTS, Computter, Sciences, Matematics, Physics, Physisc, Bconomis, Ecoooms, History
Mistral	University Departments, Computer Science, Mathematics, Physics, Biology, Economics, History

Conclusion

Cette évaluation met en lumière les forces et les faiblesses de DALL-E 3 et Mistral dans la génération de texte précis dans les images. Les principales conclusions sont les suivantes :

Mistral démontre une plus grande précision textuelle et une meilleure adhésion aux prompts par rapport à DALL-E 3, qui introduit souvent des erreurs ou des incohérences dans le texte généré. Des modifications du prompt pourraient améliorer les résultats de DALL-E 3 ; cependant, une exploration plus approfondie serait nécessaire pour valider cela, ce qui dépassait le cadre de cette évaluation.
L'utilisation de l'API OpenAI pour DALL-E 3 était simple.
L'OCR via GPT-4o utilisant l'API OpenAI a parfaitement fonctionné, extrayant avec précision le texte des images générées, même dans des cas complexes, ce qui en fait un outil d'évaluation fiable.

Dans un prochain post, je partagerai les scripts Python utilisés pour la génération d'images et l'OCR, fournissant des insights sur la manière dont ces outils peuvent être mis en œuvre efficacement dans des évaluations similaires.

Vous avez apprécié ce post ? Vous l'avez trouvé utile ? N'hésitez pas à laisser un commentaire ci-dessous pour partager vos réflexions ou poser des questions. Un compte GitHub est requis pour participer à la discussion.