- Publié le
Évaluation de la précision textuelle dans les images générées par IA : Une comparaison entre DALL-E 3 et Mistral

Introduction
La précision textuelle dans les images générées par IA est un facteur critique pour les applications nécessitant une représentation précise et littérale des prompts d'entrée. Cette évaluation vise à comparer les capacités de Mistral et DALL-E 3 à générer des images qui reproduisent fidèlement le texte spécifié. Les applications telles que les présentations, les supports éducatifs et les diapositives marketing nécessitent souvent une représentation textuelle précise dans les visuels, ce qui rend cette évaluation cruciale. L'objectif est de déterminer quel modèle performe le mieux en termes de précision textuelle, de clarté et d'adhésion globale aux prompts donnés, en utilisant OCR (Reconnaissance Optique de Caractères) avec GPT-4o pour la vérification.
Méthodologie d'évaluation
Ce post évalue la performance de deux modèles, DALL-E 3 et Mistral, dans la génération d'une image contenant un texte exact tel que spécifié dans un prompt donné. Pour évaluer les résultats, j'ai utilisé les capacités OCR (Reconnaissance Optique de Caractères) fournies par GPT-4o pour extraire et comparer le texte généré.
L'évaluation suit les étapes suivantes :
- Consistance du prompt : Le même prompt est donné aux deux modèles avec des instructions pour générer une image avec une liste exacte de mots.
- Variation du prompt : Trois prompts différents sont utilisés avec les mêmes instructions mais des listes de mots différentes.
- Génération d'images en utilisant :
- DALL-E 3 via l'API OpenAI avec un script Python.
- Mistral Chat via son interface de chat web à l'adresse chat.mistral.ai.
- Extraction du texte des images générées en utilisant :
- GPT-4o via un script Python pour l'OCR utilisant l'API OpenAI. Remarque : L'utilisation de l'API GPT nécessite une clé API OpenAI active, configurée dans le script pour l'authentification et le traitement des requêtes. Cela s'applique aux étapes 3 et 4.
Génération d'images et résultats
Prompt 1 : Modèles de Langage à Grande Échelle (LLMs)
"Une conception de diapositive de présentation propre et professionnelle avec le titre 'Modèles de Langage à Grande Échelle (LLMs)' en haut au centre. Ci-dessous, listez exactement ces noms de LLMs sous forme de points : 'Mistral,' 'ChatGPT,' 'Claude,' 'LLaMA,' 'Gemini,' et 'Falcon.' Utilisez un fond blanc uni avec un texte noir simple pour assurer la clarté, et aucun autre texte ou élément décoratif."
Figure 1 : Image générée par DALL-E 3 basée sur le prompt pour les Modèles de Langage à Grande Échelle (LLMs).
Figure 2 : Image générée par Mistral utilisant le prompt pour les Modèles de Langage à Grande Échelle (LLMs).Prompt 2 : Structure de l'entreprise
"Une conception de diapositive de présentation propre et professionnelle avec le titre 'Structure de l'entreprise' en haut au centre. Ci-dessous, listez exactement ces noms de départements sous forme de points : 'Ressources Humaines,' 'Finance,' 'Marketing,' 'Ventes,' 'Opérations,' et 'Recherche & Développement.' Utilisez un fond blanc uni avec un texte noir simple pour assurer la clarté, et aucun autre texte ou élément décoratif."
Figure 3 : Image générée par DALL-E 3 basée sur le prompt pour la Structure de l'entreprise.
Figure 4 : Image générée par Mistral utilisant le prompt pour la Structure de l'entreprise.Prompt 3 : Départements universitaires
"Une conception de diapositive de présentation propre et professionnelle avec le titre 'Départements universitaires' en haut au centre. Ci-dessous, listez exactement ces noms de départements universitaires sous forme de points : 'Informatique,' 'Mathématiques,' 'Physique,' 'Biologie,' 'Économie,' et 'Histoire.' Utilisez un fond blanc uni avec un texte noir simple pour assurer la clarté, et aucun autre texte ou élément décoratif."
Figure 5 : Image générée par DALL-E 3 basée sur le prompt pour les Départements universitaires.
Figure 6 : Image générée par Mistral utilisant le prompt pour les Départements universitaires.Résultats
Voici les résultats OCR obtenus en utilisant GPT-4o :
Prompt 1
| Modèle | Texte extrait |
|---|---|
| DALL-E 3 | LARGE LANGUAGE MODELS, MISTRAL, CLAUDE, LLAMA, GEANI, Oragrtrdle, Claude, Clamie, Falmi |
| Mistral | Large Language Models (LLMs), Mistral, ChatGPT, Clude LLaMA, Gemini, Falcon |
Prompt 2
| Modèle | Texte extrait |
|---|---|
| DALL-E 3 | COMPANY STRUCTURE, FINANCING, OPERATIONS, FINANCE, SALES, HUMAN RESOURCES, MARKETING RESOURCES, RSOMES & OPERATIONS, Research & Development, Marketing & Developity, Research & Development |
| Mistral | Company Structure, Human Resources, Marketing, Sales, Operations, Research & Development |
Prompt 3
| Modèle | Texte extrait |
|---|---|
| DALL-E 3 | UNIVERSITY DEPARTMENTS, Computter, Sciences, Matematics, Physics, Physisc, Bconomis, Ecoooms, History |
| Mistral | University Departments, Computer Science, Mathematics, Physics, Biology, Economics, History |
Conclusion
Cette évaluation met en lumière les forces et les faiblesses de DALL-E 3 et Mistral dans la génération de texte précis dans les images. Les principales conclusions sont les suivantes :
- Mistral démontre une plus grande précision textuelle et une meilleure adhésion aux prompts par rapport à DALL-E 3, qui introduit souvent des erreurs ou des incohérences dans le texte généré. Des modifications du prompt pourraient améliorer les résultats de DALL-E 3 ; cependant, une exploration plus approfondie serait nécessaire pour valider cela, ce qui dépassait le cadre de cette évaluation.
- L'utilisation de l'API OpenAI pour DALL-E 3 était simple.
- L'OCR via GPT-4o utilisant l'API OpenAI a parfaitement fonctionné, extrayant avec précision le texte des images générées, même dans des cas complexes, ce qui en fait un outil d'évaluation fiable.
Dans un prochain post, je partagerai les scripts Python utilisés pour la génération d'images et l'OCR, fournissant des insights sur la manière dont ces outils peuvent être mis en œuvre efficacement dans des évaluations similaires.
Vous avez apprécié ce post ? Vous l'avez trouvé utile ? N'hésitez pas à laisser un commentaire ci-dessous pour partager vos réflexions ou poser des questions. Un compte GitHub est requis pour participer à la discussion.
Continuer la lecture
Articles similaires
Dec 26, 2024
0CommentairesCréation de Scripts Python : Génération d'Images avec DALL-E 3 et OCR avec GPT-4o via OpenAI
Découvrez deux scripts Python simples qui utilisent DALL-E 3 et GPT-4o d'OpenAI pour générer des images et extraire du texte avec OCR, offrant un moyen facile d'évaluer la précision du texte dans le contenu généré par l'IA.
Dec 19, 2024
0CommentairesLes outils d'IA peuvent-ils générer des images symboliques à partir de concepts abstraits ?
Une comparaison de différents outils de génération d'images alimentés par l'IA, montrant leur capacité à représenter un concept symbolique.
Nov 19, 2024
0CommentairesMise à niveau de Mistral AI Le Chat
Mistral AI a introduit des mises à jour significatives à son interface IA, le Chat, améliorant ses capacités pour inclure la recherche web, l'idéation collaborative, la compréhension avancée de documents, la génération d'images et des fonctionnalités d'automatisation.