Vergleich von Mistral LLM-Modellen: Welches überzeugt in RAG-Systemen?

Einführung

In diesem Beitrag untersuche ich die vergleichende Leistung von Retrieval-Augmented Generation (RAG)-Systemen, indem ich sie mit verschiedenen Mistral AI-Modellen teste. Mein Ziel ist es, die Qualität der Antworten zu analysieren, die von diesen Modellen generiert werden, wenn sie in ein einfaches RAG-Setup integriert sind.

RAG-Systeme sind ein zunehmend beliebter Ansatz, um große Sprachmodelle (LLMs) zu nutzen, indem sie mit externen Wissensquellen kombiniert werden. Dieses Setup ermöglicht es den Modellen, relevante Informationen aus einer Datenbank abzurufen und fundierte Antworten basierend auf den abgerufenen Dokumenten zu generieren.

RAG-Setup

Für dieses Experiment habe ich den ParentDocumentRetriever von Langchain verwendet, der mit einem FAISS-Vektorspeicher als Dokumentenspeicher gekoppelt ist. Der Retriever ist eine entscheidende Komponente in der RAG-Pipeline, die dafür verantwortlich ist, relevante Dokumente abzurufen, die das LLM dann zur Generierung von Antworten verwendet.

Als Domänenwissen habe ich eine Reihe von Artikeln über RAG von arXiv verwendet, die im PDF-Format bereitgestellt wurden. Diese Artikel wurden verarbeitet und in den FAISS-Vektorspeicher integriert, um eine umfassende Wissensbasis für den Abruf während des Experiments zu schaffen.

Die Abrufpipeline wurde bewusst einfach gehalten, mit einem einfachen RAG-Setup, um die Effektivität der verschiedenen Mistral AI-Modelle bei der Verarbeitung der abgerufenen Inhalte und der präzisen Beantwortung von Fragen zu bewerten.

ParentDocumentRetriever: Balance zwischen Spezifität und Kontext

Der ParentDocumentRetriever balanciert zwei Ziele bei der Aufteilung von Dokumenten: die Erstellung kleiner Abschnitte für präzise Embeddings und die Beibehaltung ausreichend Kontext für eine sinnvolle Abfrage. Er arbeitet, indem er zunächst die kleineren Datenabschnitte abruft, die präzise Bedeutungen haben, und dann ihre übergeordneten Dokumente nachschlägt, um den größeren Kontext zurückzugeben. Dies stellt sicher, dass die Abfrage sowohl spezifisch als auch kontextuell reichhaltig bleibt, ohne wichtige Informationen zu verlieren.

Vergleich der Mistral AI-Modelle

Die folgenden Mistral-Modelle wurden über den Mistral AI LLM API-Endpunkt ausgeführt und basierend auf ihrer Fähigkeit verglichen, kohärente, genaue und kontextuell relevante Antworten zu generieren:

mistral-large-2407
mistral-small-2409
open-mixtral-8x22b
open-mixtral-8x7b

Bewertungskriterien

Um eine unvoreingenommene Bewertung der Ausgabequalität sicherzustellen, habe ich ein Mistral Large-Modell als Richter verwendet. Das Mistral Large-Modell wurde beauftragt, die von den verschiedenen Modellen generierten Ergebnisse basierend auf einer Reihe von Kriterien zu bewerten:

Relevanz: Wie gut die Antwort mit den abgerufenen Dokumenten übereinstimmt.
Kohärenz: Die Klarheit und der logische Fluss der Antwort.
Genauigkeit: Ob die in der Antwort präsentierten Fakten mit dem Kontext der abgerufenen Dokumente übereinstimmen.

RAG-Kette

Das folgende Workflow-Diagramm veranschaulicht die einfache RAG-Kette, die in dieser Studie verwendet wurde.

Diagramm erstellt mit Excalidraw Integration mit Mermaid.

Fazit

Das mistral-large-2407-Modell übertraf die anderen Modelle durchweg in Bezug auf Relevanz, Kohärenz und Genauigkeit, was es zur besten Wahl für hochwertige Antworten macht, obwohl es auch deutlich mehr Zeit im Vergleich zu kleineren Modellen benötigte. Das mistral-small-2409-Modell bot eine gute Leistung mit schnelleren Antwortzeiten, während die open-mixtral-Modelle für Szenarien geeignet waren, bei denen Geschwindigkeit vor Genauigkeit priorisiert wird.

Diese Studie ist sehr begrenzt in der Anzahl der bewerteten Fragen, was ihre Fähigkeit einschränkt, allgemeine Schlussfolgerungen zu ziehen.

In zukünftigen Beiträgen plane ich, weitere Details zur Konfiguration, die für diese Studie verwendet wurde, bereitzustellen und auch andere fortgeschrittene RAG-Ansätze zu untersuchen.

Ergebnisse

Die folgenden Ergebnisse geben einen Überblick darüber, wie verschiedene Mistral AI-Modelle bei einer Reihe von Fragen zu Retrieval-Augmented Generation (RAG)-Systemen abschnitten. Jedes Modell wurde basierend auf seiner Fähigkeit bewertet, relevante, kohärente und genaue Antworten zu generieren.

Question: Describe a taxonomy of RAG systems
- Model: mistral-large-2407, Score: 9.5, Time: 29.47 s
- Model: mistral-small-2409, Score: 9.5, Time: 13.81 s
- Model: open-mixtral-8x22b, Score: 8.5, Time: 7.98 s
- Model: open-mixtral-8x7b, Score: 8.5, Time: 4.26 s

Question: Explain in depth with all details what FlashRAG offers
- Model: mistral-large-2407, Score: 9.5, Time: 28.22 s
- Model: mistral-small-2409, Score: 9.5, Time: 15.98 s
- Model: open-mixtral-8x22b, Score: 9.5, Time: 9.73 s
- Model: open-mixtral-8x7b, Score: 8.5, Time: 7.79 s

Question: Give me pros and cons of RAG in comparison with model fine-tuning
- Model: mistral-large-2407, Score: 9.5, Time: 36.34 s
- Model: mistral-small-2409, Score: 9.5, Time: 13.14 s
- Model: open-mixtral-8x22b, Score: 9.5, Time: 11.6 s
- Model: open-mixtral-8x7b, Score: 8.5, Time: 8.75 s

Question: How does the context length limitation impact the retrieval process in RAG systems, and what strategies are used to mitigate it?
- Model: mistral-large-2407, Score: 9.5, Time: 18.55 s
- Model: mistral-small-2409, Score: 8.5, Time: 12.77 s
- Model: open-mixtral-8x22b, Score: 8.5, Time: 8.93 s
- Model: open-mixtral-8x7b, Score: 8.5, Time: 4.99 s

Question: What are the advantages and disadvantages of different document chunking strategies in RAG systems?
- Model: mistral-large-2407, Score: 9.5, Time: 24.51 s
- Model: mistral-small-2409, Score: 7.5, Time: 2.46 s
- Model: open-mixtral-8x22b, Score: 8.5, Time: 10.3 s
- Model: open-mixtral-8x7b, Score: 6.5, Time: 5.03 s

Question: How can RAG systems incorporate long-term memory to improve performance across multiple interactions?
- Model: mistral-large-2407, Score: 8.5, Time: 12.05 s
- Model: mistral-small-2409, Score: 2.5, Time: 2.34 s
- Model: open-mixtral-8x22b, Score: 8.5, Time: 6.09 s
- Model: open-mixtral-8x7b, Score: 8.5, Time: 5.71 s

Nützliche Links

Hat Ihnen dieser Beitrag gefallen? Fanden Sie ihn hilfreich? Hinterlassen Sie gerne einen Kommentar unten, um Ihre Gedanken mitzuteilen oder Fragen zu stellen. Ein GitHub-Konto ist erforderlich, um an der Diskussion teilzunehmen.