Comparaison des modèles Mistral LLM : Lequel excelle dans les systèmes RAG ?

Introduction

Dans cet article, j'explore la performance comparative des systèmes de Génération Augmentée par Récupération (RAG) en les testant avec différents modèles de Mistral AI. Mon objectif est d'analyser la qualité des réponses générées par ces modèles lorsqu'ils sont intégrés à une configuration RAG simple.

Les systèmes RAG sont une approche de plus en plus populaire pour exploiter les grands modèles de langage (LLMs) en les combinant avec des sources de connaissances externes. Cette configuration permet aux modèles de récupérer des informations pertinentes à partir d'une base de données et de générer des réponses informées basées sur les documents récupérés.

Configuration RAG

Pour cette expérience, j'ai utilisé le ParentDocumentRetriever de Langchain, qui est associé à un magasin de vecteurs FAISS comme base de documents. Le récupérateur est un composant crucial dans le pipeline RAG, chargé de récupérer les documents pertinents que le LLM utilisera ensuite pour générer des réponses.

Comme source de connaissances, j'ai utilisé un ensemble d'articles sur RAG provenant d'arXiv, fournis au format PDF. Ces articles ont été traités et intégrés dans le magasin de vecteurs FAISS pour créer une base de connaissances complète pour la récupération lors de l'expérience.

Le pipeline de récupération a été volontairement gardé simple avec une configuration RAG naïve pour se concentrer sur l'efficacité des différents modèles Mistral AI dans le traitement du contenu récupéré et la génération de réponses précises.

ParentDocumentRetriever : Équilibre entre spécificité et contexte

Le ParentDocumentRetriever équilibre deux objectifs lors de la division des documents : créer de petits segments pour des embeddings précis et conserver suffisamment de contexte pour une récupération significative. Il fonctionne en récupérant d'abord les petits segments de données, qui ont des significations précises, puis en recherchant leurs documents parents pour retourner un contexte plus large. Cela garantit que la récupération reste à la fois spécifique et riche en contexte, sans perdre d'informations importantes.

Modèles Mistral AI comparés

Les modèles Mistral suivants ont été exécutés via le point de terminaison API LLM de Mistral AI et comparés en fonction de leur capacité à générer des réponses cohérentes, précises et pertinentes sur le plan contextuel :

mistral-large-2407
mistral-small-2409
open-mixtral-8x22b
open-mixtral-8x7b

Critères d'évaluation

Pour garantir une évaluation impartiale de la qualité des réponses, j'ai utilisé un modèle Mistral large comme juge. Le Mistral large a été chargé de noter les résultats générés par les différents modèles en fonction d'un ensemble de critères :

Pertinence : Dans quelle mesure la réponse correspond aux documents récupérés.
Cohérence : La clarté et le flux logique de la réponse.
Exactitude : Si les faits présentés dans la réponse correspondent au contexte fourni par les documents récupérés.

Chaîne RAG

Le diagramme de workflow suivant illustre la chaîne RAG simple utilisée dans cette étude.

Diagramme généré en utilisant l'intégration Excalidraw avec Mermaid.

Conclusion

Le modèle mistral-large-2407 a systématiquement surpassé les autres en termes de pertinence, de cohérence et d'exactitude, ce qui en fait le meilleur choix pour des réponses de haute qualité, bien qu'il nécessite également beaucoup plus de temps par rapport aux modèles plus petits. Le modèle mistral-small-2409 a offert de bonnes performances avec des temps de réponse plus rapides, tandis que les modèles open-mixtral étaient adaptés aux scénarios privilégiant la vitesse par rapport à la précision.

Cette étude est très limitée en termes de nombre de questions évaluées, ce qui restreint sa capacité à tirer des conclusions générales.

Dans de futurs articles, je prévois de fournir plus de détails sur la configuration utilisée pour cette étude et d'explorer également d'autres approches RAG avancées.

Résultats

Les résultats suivants donnent un aperçu de la performance des différents modèles Mistral AI sur une série de questions liées aux systèmes de Génération Augmentée par Récupération (RAG). Chaque modèle a été évalué en fonction de sa capacité à générer des réponses pertinentes, cohérentes et exactes.

Question: Décrivez une taxonomie des systèmes RAG
- Modèle: mistral-large-2407, Score: 9.5, Temps: 29.47 s
- Modèle: mistral-small-2409, Score: 9.5, Temps: 13.81 s
- Modèle: open-mixtral-8x22b, Score: 8.5, Temps: 7.98 s
- Modèle: open-mixtral-8x7b, Score: 8.5, Temps: 4.26 s

Question: Expliquez en détail avec tous les détails ce que propose FlashRAG
- Modèle: mistral-large-2407, Score: 9.5, Temps: 28.22 s
- Modèle: mistral-small-2409, Score: 9.5, Temps: 15.98 s
- Modèle: open-mixtral-8x22b, Score: 9.5, Temps: 9.73 s
- Modèle: open-mixtral-8x7b, Score: 8.5, Temps: 7.79 s

Question: Donnez-moi les avantages et les inconvénients de RAG par rapport au fine-tuning des modèles
- Modèle: mistral-large-2407, Score: 9.5, Temps: 36.34 s
- Modèle: mistral-small-2409, Score: 9.5, Temps: 13.14 s
- Modèle: open-mixtral-8x22b, Score: 9.5, Temps: 11.6 s
- Modèle: open-mixtral-8x7b, Score: 8.5, Temps: 8.75 s

Question: Comment la limitation de la longueur du contexte impacte-t-elle le processus de récupération dans les systèmes RAG, et quelles stratégies sont utilisées pour l'atténuer ?
- Modèle: mistral-large-2407, Score: 9.5, Temps: 18.55 s
- Modèle: mistral-small-2409, Score: 8.5, Temps: 12.77 s
- Modèle: open-mixtral-8x22b, Score: 8.5, Temps: 8.93 s
- Modèle: open-mixtral-8x7b, Score: 8.5, Temps: 4.99 s

Question: Quels sont les avantages et les inconvénients des différentes stratégies de découpage de documents dans les systèmes RAG ?
- Modèle: mistral-large-2407, Score: 9.5, Temps: 24.51 s
- Modèle: mistral-small-2409, Score: 7.5, Temps: 2.46 s
- Modèle: open-mixtral-8x22b, Score: 8.5, Temps: 10.3 s
- Modèle: open-mixtral-8x7b, Score: 6.5, Temps: 5.03 s

Question: Comment les systèmes RAG peuvent-ils intégrer une mémoire à long terme pour améliorer les performances sur plusieurs interactions ?
- Modèle: mistral-large-2407, Score: 8.5, Temps: 12.05 s
- Modèle: mistral-small-2409, Score: 2.5, Temps: 2.34 s
- Modèle: open-mixtral-8x22b, Score: 8.5, Temps: 6.09 s
- Modèle: open-mixtral-8x7b, Score: 8.5, Temps: 5.71 s

Liens utiles

Vous avez apprécié cet article ? Vous l'avez trouvé utile ? N'hésitez pas à laisser un commentaire ci-dessous pour partager vos réflexions ou poser des questions. Un compte GitHub est requis pour participer à la discussion.