- Publicado el
Evaluación de la precisión de texto en imágenes generadas por IA: Una comparación entre DALL-E 3 y Mistral

Introducción
La precisión del texto en imágenes generadas por IA es un factor crítico para aplicaciones que requieren una representación precisa y literal de los prompts de entrada. Esta evaluación tiene como objetivo comparar las capacidades de Mistral y DALL-E 3 para generar imágenes que reproduzcan fielmente el texto especificado. Aplicaciones como presentaciones, materiales educativos y diapositivas de marketing a menudo requieren una representación precisa del texto dentro de las imágenes, lo que hace que esta evaluación sea crucial. El objetivo es determinar qué modelo funciona mejor en términos de precisión textual, claridad y adherencia general a los prompts dados, utilizando OCR (Reconocimiento Óptico de Caracteres) con GPT-4o para la verificación.
Metodología de Evaluación
Este post evalúa el rendimiento de dos modelos, DALL-E 3 y Mistral, en la generación de una imagen que contenga texto exacto como se especifica en un prompt dado. Para evaluar los resultados, utilicé las capacidades de OCR (Reconocimiento Óptico de Caracteres) proporcionadas por GPT-4o para extraer y comparar el texto generado.
La evaluación sigue estos pasos:
- Consistencia del Prompt: Se proporciona el mismo prompt a ambos modelos con instrucciones para generar una imagen con una lista exacta de palabras.
- Variación del Prompt: Se utilizan tres prompts diferentes con las mismas instrucciones pero con listas de palabras distintas.
- Generación de imágenes utilizando:
- DALL-E 3 a través de la API de OpenAI con un script en Python.
- Mistral Chat a través de su interfaz de chat basada en web en chat.mistral.ai.
- Extracción de texto de las imágenes generadas utilizando:
- GPT-4o a través de un script en Python para OCR utilizando la API de OpenAI. Nota: El uso de la API de GPT requiere una clave de API de OpenAI activa, configurada en el script para autenticación y procesamiento de solicitudes. Esto aplica a los pasos 3 y 4.
Generación de Imágenes y Resultados
Prompt 1: Modelos de Lenguaje Grande (LLMs)
"Un diseño de diapositiva de presentación limpio y profesional con el título 'Modelos de Lenguaje Grande (LLMs)' en la parte superior central. A continuación, enumere exactamente estos y solo estos nombres de LLMs como puntos de viñeta: 'Mistral,' 'ChatGPT,' 'Claude,' 'LLaMA,' 'Gemini,' y 'Falcon.' Utilice un fondo blanco liso con texto negro simple para garantizar claridad, y ningún otro texto o elementos decorativos."


Prompt 2: Estructura de la Empresa
"Un diseño de diapositiva de presentación limpio y profesional con el título 'Estructura de la Empresa' en la parte superior central. A continuación, enumere exactamente estos y solo estos nombres de departamentos como puntos de viñeta: 'Recursos Humanos,' 'Finanzas,' 'Marketing,' 'Ventas,' 'Operaciones,' y 'Investigación y Desarrollo.' Utilice un fondo blanco liso con texto negro simple para garantizar claridad, y ningún otro texto o elementos decorativos."


Prompt 3: Departamentos Universitarios
"Un diseño de diapositiva de presentación limpio y profesional con el título 'Departamentos Universitarios' en la parte superior central. A continuación, enumere exactamente estos y solo estos departamentos universitarios como puntos de viñeta: 'Ciencias de la Computación,' 'Matemáticas,' 'Física,' 'Biología,' 'Economía,' y 'Historia.' Utilice un fondo blanco liso con texto negro simple para garantizar claridad, y ningún otro texto o elementos decorativos."


Resultados
Los siguientes son los resultados de OCR obtenidos utilizando GPT-4o:
Prompt 1
Modelo | Texto Extraído |
---|---|
DALL-E 3 | LARGE LANGUAGE MODELS, MISTRAL, CLAUDE, LLAMA, GEANI, Oragrtrdle, Claude, Clamie, Falmi |
Mistral | Large Language Models (LLMs), Mistral, ChatGPT, Clude LLaMA, Gemini, Falcon |
Prompt 2
Modelo | Texto Extraído |
---|---|
DALL-E 3 | COMPANY STRUCTURE, FINANCING, OPERATIONS, FINANCE, SALES, HUMAN RESOURCES, MARKETING RESOURCES, RSOMES & OPERATIONS, Research & Development, Marketing & Developity, Research & Development |
Mistral | Company Structure, Human Resources, Marketing, Sales, Operations, Research & Development |
Prompt 3
Modelo | Texto Extraído |
---|---|
DALL-E 3 | UNIVERSITY DEPARTMENTS, Computter, Sciences, Matematics, Physics, Physisc, Bconomis, Ecoooms, History |
Mistral | University Departments, Computer Science, Mathematics, Physics, Biology, Economics, History |
Conclusión
Esta evaluación destaca las fortalezas y debilidades de DALL-E 3 y Mistral en la generación de texto preciso dentro de imágenes. Los hallazgos clave son los siguientes:
- Mistral demuestra una mayor precisión textual y adherencia a los prompts en comparación con DALL-E 3, que a menudo introdujo errores o inconsistencias en el texto generado. Cambios en el prompt podrían mejorar los resultados de DALL-E 3; sin embargo, se necesitaría una exploración adicional para validar esto, lo cual estaba fuera del alcance de esta evaluación.
- El uso de la API de OpenAI para DALL-E 3 fue sencillo.
- OCR a través de GPT-4o utilizando la API de OpenAI funcionó perfectamente, extrayendo con precisión el texto de las imágenes generadas, incluso en casos complejos, lo que lo convierte en una herramienta de evaluación confiable.
En una próxima publicación, compartiré los scripts de Python utilizados tanto para la generación de imágenes como para el OCR, proporcionando información sobre cómo estas herramientas pueden implementarse de manera efectiva en evaluaciones similares.
¿Disfrutaste este post? ¿Te resultó útil? No dudes en dejar un comentario a continuación para compartir tus pensamientos o hacer preguntas. Se requiere una cuenta de GitHub para unirse a la discusión.