- Veröffentlicht am
HtmlRAG: HTML ist besser als Klartext für die Modellierung abgerufenen Wissens in RAG-Systemen
Das Papier "HtmlRAG: HTML ist besser als Klartext für die Modellierung abgerufenen Wissens in RAG-Systemen" untersucht die Verwendung von HTML als Format für abgerufenes Wissen in Retrieval-Augmented Generation (RAG)-Systemen. Traditionelle RAG-Systeme konvertieren HTML-Dokumente in Klartext, was zum Verlust von strukturellen und semantischen Informationen führt. Die Autoren schlagen vor, HTML direkt zu verwenden, um diese Informationen zu bewahren, und argumentieren, dass große Sprachmodelle (LLMs) in der Lage sind, HTML ohne zusätzliches Fine-Tuning zu verstehen.
Einführung
Das Papier "HtmlRAG: HTML ist besser als Klartext für die Modellierung abgerufenen Wissens in RAG-Systemen" untersucht die Verwendung von HTML als Format für abgerufenes Wissen in Retrieval-Augmented Generation (RAG)-Systemen. Traditionelle RAG-Systeme konvertieren HTML-Dokumente in Klartext, was zum Verlust von strukturellen und semantischen Informationen führt. Die Autoren schlagen vor, HTML direkt zu verwenden, um diese Informationen zu bewahren, und argumentieren, dass große Sprachmodelle (LLMs) in der Lage sind, HTML ohne zusätzliches Fine-Tuning zu verstehen.
Wichtige Punkte
- Informationsverlust bei der Konvertierung in Klartext: Die Konvertierung von HTML in Klartext führt zum Verlust von strukturellen und semantischen Informationen, wie Überschriften und Tabellenstrukturen. Dies kann zu ungeordnetem Inhalt und dem Verlust wichtiger Tags führen.
- Vorteile von HTML: Die Verwendung von HTML als Format für externes Wissen in RAG-Systemen bewahrt die in HTML-Dokumenten enthaltenen Informationen. LLMs sind während des Pre-Trainings auf HTML-Dokumente gestoßen und verfügen über die Fähigkeit, HTML ohne weiteres Fine-Tuning zu verstehen.
- Herausforderungen und Lösungen: HTML enthält zusätzliche Inhalte wie Tags, JavaScript und CSS, die Rauschen einführen und die Anzahl der Eingabe-Tokens erhöhen können. Die Autoren schlagen HTML-Bereinigung, Komprimierung und Beschneidungsstrategien vor, um die Länge von HTML-Dokumenten zu verkürzen und gleichzeitig den Informationsverlust zu minimieren.
- Experimentelle Validierung: Die Autoren führten Experimente mit sechs QA-Datensätzen durch, die die Überlegenheit der Verwendung von HTML in RAG-Systemen demonstrieren. Sie führten auch Ablationsstudien durch, um die Wirksamkeit jeder Komponente in ihrer vorgeschlagenen Methode zu validieren.
Fazit
Das Papier kommt zu dem Schluss, dass die Verwendung von HTML als Format für externes Wissen in RAG-Systemen effektiver ist als die Verwendung von Klartext. Die vorgeschlagenen HTML-Bereinigungs- und Beschneidungsstrategien verkürzen erfolgreich die Länge von HTML-Dokumenten, während wichtige Informationen erhalten bleiben, was zu einer verbesserten Leistung in verschiedenen QA-Aufgaben führt.
Quelle(n):
Weiterlesen
Ähnliche Beiträge
Apr 5, 2025
0KommentareReaRAG: Verbesserung der Faktentreue in großen Reasoning-Modellen durch wissensgeleitetes Reasoning
Dieser Beitrag untersucht ReaRAG, einen neuartigen Ansatz, der iterative Retrieval-Augmented Generation (RAG) mit wissensgeleitetem Reasoning integriert, um die Faktentreue und Robustheit von Large Reasoning Models (LRMs) bei Multi-Hop-Frage-Antwort-Aufgaben zu verbessern.
Jan 14, 2025
0KommentareRAGCheck: Bewertung der Leistung von multimodalem Retrieval-Augmented Generation
Dieser Beitrag diskutiert das RAGCheck-Framework zur Bewertung der Zuverlässigkeit von multimodalen Retrieval-Augmented Generation (RAG)-Systemen, wobei der Schwerpunkt auf Relevanz- und Korrektheitsmetriken liegt, um Halluzinationen zu reduzieren.
Jan 1, 2025
0KommentareOPEN-RAG: Verbesserung des Retrieval-Augmented Reasoning mit Open-Source LLMs
Erfahren Sie, wie OPEN-RAG die Fähigkeiten des Retrieval-Augmented Generation (RAG) durch den Einsatz von Open-Source Large Language Models (LLMs) verbessert und dabei state-of-the-art Modelle in Genauigkeit und Geschwindigkeit übertrifft.