Document Inlining : Combler l'écart de modalité avec l'IA composée

Cet article de blog de Fireworks.ai présente Document Inlining, un nouveau système d'IA composée conçu pour améliorer l'interaction des modèles de langage de grande taille (LLM) avec des données non textuelles comme les PDF et les images. Le système vise à combler l'"écart de modalité" qui entraîne souvent des résultats de moindre qualité des modèles vision-langage (VLM) par rapport aux LLM basés sur le texte traitant les mêmes informations.

Qu'est-ce que Document Inlining ?

Document Inlining convertit les données visuelles de documents (PDF, images) en texte structuré, les rendant ainsi facilement assimilables par les LLM. Ce processus en deux étapes consiste à analyser le contenu visuel, puis à transmettre le texte transcrit au LLM pour traitement et raisonnement.

Répondre aux défis

Cette approche répond à des défis tels que la reconnaissance optique de caractères (OCR) précise pour les structures de documents complexes (tableaux, graphiques), la gestion du pipeline de conversion, et l'optimisation de la vitesse et des coûts en évitant les transcriptions redondantes.

Évaluation et résultats

L'évaluation de Fireworks.ai montre que l'utilisation de Document Inlining avec un LLM basé sur le texte surpasse l'utilisation directe d'un VLM avec la même entrée visuelle, démontrant une amélioration du raisonnement et de la précision. De plus, l'utilisation de Document Inlining avec un VLM améliore considérablement ses performances par rapport à l'alimentation directe du VLM avec des données d'image.

Conclusion

Document Inlining offre une alternative plus efficace et de meilleure qualité à l'utilisation directe des VLM pour les tâches basées sur des documents. En tirant parti des forces des LLM spécialisés basés sur le texte, ce système d'IA composée simplifie le processus pour les développeurs, améliore la précision et offre une flexibilité dans le choix des modèles. Le système est actuellement en prévisualisation publique sans coût supplémentaire au-delà des frais d'utilisation standard des LLM.

Source(s) :

Fireworks.ai Blog : Document Inlining : Crossing the Modality Gap with Compound AI