DeepSeek-R1-Zero und DeepSeek-R1: Analyse von Reinforcement Learning & Fine-Tuning

Einführung

Dieser Beitrag folgt der Forschung, die in dem Papier DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning von DeepSeek AI detailliert beschrieben wird. Das Papier untersucht, wie Reinforcement Learning die Fähigkeiten von großen Sprachmodellen (LLMs) zur logischen Schlussfolgerung verbessern kann.

DeepSeek-R1-Zero und DeepSeek-R1 sind zwei fortschrittliche Modelle, die auf DeepSeek-V3-Base aufbauen und Reinforcement Learning-Techniken nutzen, um die Fähigkeiten zur logischen Schlussfolgerung zu verbessern. Dieser Beitrag bietet eine präzise Untersuchung ihrer architektonischen Innovationen, Trainingsstrategien und Leistungsverbesserungen.

DeepSeek-V3-Base: Das Fundament

Sowohl DeepSeek-R1-Zero als auch DeepSeek-R1 stammen von DeepSeek-V3-Base ab, einem Mixture-of-Experts (MoE)-LLM mit:

671 Milliarden Gesamtparametern (37 Milliarden aktive Parameter pro Token während der Inferenz)
128K Token Kontextfenster für die Handhabung von langen Kontexten
Multi-Head Latent Attention (MLA) und DeepSeek-MoE-Architektur
Vortrainiert auf 14,8 Billionen Token

Diese Innovationen ermöglichen eine effiziente Handhabung von langen Kontexten und eine verbesserte Leistung bei logischen Schlussfolgerungen, während die Trainingsmöglichkeiten erhalten bleiben.

Für eine detaillierte Untersuchung von DeepSeek-V3 lesen Sie diesen Beitrag auf meinem Blog, in dem ich eine Analyse der Architektur liefere.

DeepSeek-R1-Zero: Rein Reinforcement Learning-Modell

DeepSeek-R1-Zero wurde vollständig durch Reinforcement Learning (RL) mit Group Relative Policy Optimization (GRPO) trainiert, ohne jegliches supervised fine-tuning (SFT). Wichtige Aspekte:

📌 Es wurden keine von Menschen annotierten Daten verwendet; das Modell lernte die Fähigkeiten zur logischen Schlussfolgerung rein durch RL.
📌 Aufgabenbasierte Belohnungen wurden verwendet, wobei der Fokus auf genauigkeitsbasierten und formatbasierten Anreizen lag.
📌 Herausforderungen traten auf, wie z. B. Weitschweifigkeit, Wiederholungen und Formatierungsinkonsistenzen, da RL allein nicht auf Lesbarkeit optimiert.

Trotz dieser Herausforderungen erreichte R1-Zero bemerkenswerte Leistungen und kam fast an die Spitzenleistungen geschlossener Modelle in mathematischen und logischen Aufgaben heran.

DeepSeek-R1: Verbesserte Schlussfolgerungen und Lesbarkeit

Um die Schwächen von R1-Zero zu beheben, integrierte DeepSeek-R1 einen hybriden Trainingsansatz:

🏁 Cold-start SFT: Eine kleine Menge hochwertiger Beispiele für logische Schlussfolgerungen half, klare Formatierung und strukturierte Schlussfolgerungen zu etablieren.
🏋️ Reasoning-Focused RL: Groß angelegtes Reinforcement Learning verbesserte die Problemlösungsfähigkeit weiter.
🔄 Datenanreicherung & zusätzliches SFT: Die besten Beispiele aus dem RL wurden verwendet, um das Modell erneut zu feinabstimmen.
🎯 Finales RLHF & Alignment: Eine letzte RL-Phase sicherte Hilfsbereitschaft, Schadlosigkeit und Benutzerausrichtung.

🔥 Wichtige Verbesserungen in DeepSeek-R1

📝 Prägnante, gut strukturierte Antworten
🏆 Höhere Genauigkeit bei logischen Aufgaben
🌍 Sprachliche Konsistenz beibehalten
🛡 Bessere Ausrichtung für reale Anwendungen

Reinforcement Learning

Reinforcement Learning (RL) ist ein Paradigma des maschinellen Lernens, bei dem ein Agent durch Interaktion mit einer Umgebung lernt, Entscheidungen zu treffen. Die Kernidee besteht darin, Aktionen basierend auf Belohnungen zu optimieren und die Leistung im Laufe der Zeit zu verbessern.

Schlüsselkomponenten von RL:

Agent – Das Modell oder der Algorithmus, der Entscheidungen trifft.
Umgebung – Das System, mit dem der Agent interagiert.
Aktionen (A) – Die möglichen Entscheidungen, die der Agent treffen kann.
Zustand (S) – Die aktuelle Situation, die der Agent beobachtet.
Belohnung (R) – Ein Signal, das die Qualität einer getroffenen Aktion anzeigt.
Policy (π) – Eine Strategie, die Zustände auf Aktionen abbildet.

Der Lernprozess folgt einer Schleife:

Der Agent beobachtet den Zustand (S) der Umgebung.
Er wählt eine Aktion (A) basierend auf seiner aktuellen Policy.
Die Umgebung antwortet mit einer Belohnung (R) und einem neuen Zustand (S').
Der Agent aktualisiert seine Policy, um zukünftige Belohnungen zu maximieren.

Supervised Fine-Tuning

Supervised Fine-Tuning (SFT) ist eine Trainingsmethode, bei der ein vortrainiertes Modell mit hochwertigen, beschrifteten Daten verfeinert wird. Diese Methode stellt sicher, dass das Modell strukturierte Antworten, klare Formatierung und aufgabenbezogenes Wissen lernt.

Wichtige Aspekte von SFT:

🏗 Verwendet beschriftete Datensätze, bei denen Eingaben mit idealen Ausgaben gepaart sind.
🏆 Verbessert die Antwortqualität, indem sichergestellt wird, dass das Modell korrekte Schritte zur Schlussfolgerung befolgt.
🔧 Reduziert Halluzinationen, indem Antworten in kuratiertem Wissen verankert werden.
📝 Hilft bei der Formatierung, wodurch die Modellausgaben lesbarer und strukturierter werden.

Was ist Cold-start SFT?

Cold-start SFT ist ein Ansatz, der verwendet wird, um das Lernen in einem RL-trainierten Modell zu beschleunigen, indem zunächst ein kleiner, aber hochwertiger überwachter Datensatz bereitgestellt wird, bevor das Reinforcement Learning beginnt. Dies hilft dabei:

📏 Konsistente Formatierungsregeln für Antworten zu etablieren.
� Grundlegende Fähigkeiten zur logischen Schlussfolgerung vor der RL-Feinabstimmung zu schaffen.
🚀 Schnellere Konvergenz zu erreichen, indem dem Modell eine strukturierte Grundlage gegeben wird.

In DeepSeek-R1 wurde Cold-start SFT verwendet, um:

Das Modell mit einer kleinen Menge von von Experten erstellten Beispielen für logische Schlussfolgerungen zu trainieren.
Klare Formatierungsrichtlinien zu etablieren, um Weitschweifigkeit und Wiederholungen in späteren RL-Phasen zu verhindern.
Als Sprungbrett vor dem groß angelegten Reinforcement Learning zu dienen.

Group Relative Policy Optimization

Group Relative Policy Optimization (GRPO) ist eine neuartige Reinforcement Learning-Technik, die die Trainingskosten reduziert, indem der Baseline-Wert aus Gruppenergebnissen geschätzt wird, anstatt ein Kritiker-Modell zu verwenden. Dieser Vorteil ermöglicht eine größere Effizienz beim Training, da kein separates Kritiker-Netzwerk benötigt wird, das ressourcenintensiv und komplex sein kann. Durch die Verwendung von Gruppenergebnissen zur Festlegung von Baseline-Werten verbessert GRPO die Stabilität und Robustheit von Policy-Updates, was zu zuverlässigeren Lernergebnissen führt.

Die folgenden Abschnitte bieten eine detaillierte Analyse der mathematischen Formulierung von GRPO, wobei das Optimierungsziel, die KL-Divergenz-Strafe und die Vorteilsschätzung hervorgehoben werden.

Schlüsselideen von GRPO

1. Relative Belohnungsschätzung

GRPO vermeidet die Notwendigkeit eines Kritiker-Modells, indem Belohnungen basierend auf relativen Vergleichen innerhalb einer Gruppe von Ausgaben zugewiesen werden. Anstatt absolute Wertfunktionen zu schätzen, berechnet es:

A_i = \frac{r_i - \text{mean}(r_1, r_2, \dots, r_G)}{\text{std}(r_1, r_2, \dots, r_G)}

wobei $A_i$ der Vorteil einer Aktion $o_i$ ist, gemessen relativ zu anderen abgetasteten Aktionen in derselben Gruppe. Hier repräsentieren $r_1, r_2, \dots, r_G$ die Belohnungen, die verschiedenen Aktionen des Modells im gleichen Kontext zugewiesen wurden, was hilft, ihre Effektivität zu vergleichen und festzustellen, welche Aktionen relativ zueinander besser abschneiden.

2. Policy-Ratio-Clipping für Stabilität

Um instabile Updates zu verhindern, verwendet GRPO ein geklammertes Wichtigkeitsverhältnis, inspiriert von Proximal Policy Optimization (PPO):

L(o_i, q, \theta) = \min \left( r_t(\theta) A_i, \text{clip} \left( r_t(\theta), 1 - \epsilon, 1 + \epsilon \right) A_i \right)

wobei:

$r_t(\theta) = \frac{\pi_{\theta}(o_i | q)}{\pi_{\theta_{old}}(o_i | q)}$ das Policy-Verhältnis ist. Das Policy-Verhältnis misst die Wahrscheinlichkeit, die Aktion $o_i$ unter der aktuellen Policy $\pi_{\theta}$ im Vergleich zur vorherigen Policy $\pi_{\theta_{old}}$ zu wählen. Es ist entscheidend, um zu verstehen, wie stark sich die Policy geändert hat und um stabile Updates zu gewährleisten.
$\text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon)$ begrenzt das Policy-Verhältnis auf einen sicheren Bereich.
$A_i$ ist die Vorteilsfunktion, die bestimmt, ob die Aktion $o_i$ besser oder schlechter als der Gruppenmittelwert ist.
$\theta$ bezeichnet die Parameter der aktuellen Policy, und $q$ repräsentiert den Kontext oder Zustandsinformationen, die für die getroffene Aktion relevant sind, und stellt sicher, dass die Policy basierend auf der aktuellen Situation angemessen angepasst wird.

Dies stellt sicher, dass Policy-Updates innerhalb eines kontrollierten Bereichs bleiben und verhindert übermäßig große Updates, die das Training destabilisieren könnten. Wenn $r_t(\theta)$ den Clipping-Schwellenwert überschreitet, wird die geklammerte Version verwendet, um übermäßige Policy-Verschiebungen zu vermeiden.

3. KL-Regularisierung für kontrollierte Updates

GRPO wendet KL-Divergenz-Regularisierung an, um zu verhindern, dass die Policy zu weit von einer Referenz-Policy abweicht:

D_{KL} (\pi_{\theta} || \pi_{\text{ref}}) = \sum_{o} \pi_{\text{ref}}(o | q) \log \frac{\pi_{\text{ref}}(o | q)}{\pi_{\theta}(o | q)} - 1.

Die KL-Divergenz ist ein Maß dafür, wie stark sich eine Wahrscheinlichkeitsverteilung von einer zweiten, erwarteten Wahrscheinlichkeitsverteilung unterscheidet. Ein Gewichtungsparameter $\beta$ steuert, wie stark die Policy eingeschränkt wird.

4. Effiziente Belohnungsberechnung in praktischen Anwendungen

In Implementierungen wie DeepSeek-R1 werden Belohnungen bestimmt durch:

Genauigkeitsbasierte Belohnungen, bei denen Antworten anhand von Grundwahrheiten bewertet werden.
Formatbasierte Belohnungen, die strukturierte Ausgaben sicherstellen (z. B. das Erzwingen von Schlussfolgerungsschritten innerhalb von <think>-Tags).

Dieses strukturierte Belohnungssystem ermöglicht es GRPO, Modelle dazu zu führen, sowohl genaue als auch gut formatierte Antworten zu liefern, ohne eine explizite Wertfunktion zu benötigen.

Warum GRPO funktioniert

🚀 Kein Bedarf an einem Kritiker-Modell, was die Rechenkosten reduziert.
🔄 Relative Bewertung sorgt für stabiles Training, indem verrauschte Belohnungssignale vermieden werden.
🎯 Geklammerte Updates und KL-Einschränkungen verhindern drastische Policy-Verschiebungen.
✅ Aufgabenspezifische Belohnungsgestaltung macht es flexibel für verschiedene Anwendungen.

GRPO ist ein effizienter Reinforcement Learning-Ansatz, der Skalierbarkeit, Stabilität und Leistung ausbalanciert und ihn ideal für moderne KI-Anwendungen macht.

Fazit

Reinforcement Learning-Verbesserungen: Die Verwendung von Reinforcement Learning, insbesondere GRPO, verbessert die Fähigkeiten zur logischen Schlussfolgerung erheblich, ohne auf von Menschen annotierte Daten angewiesen zu sein, und bietet eine skalierbare Lösung für das Training großer Modelle.
Hybrider Trainingsansatz: Die Kombination von Reinforcement Learning mit Supervised Fine-Tuning in DeepSeek-R1 behebt die Einschränkungen von RL allein und verbessert die Lesbarkeit und Ausrichtung auf menschenähnliche Schlussfolgerungen.
Architektonische Innovationen: DeepSeek-Modelle nutzen die Mixture-of-Experts-Architektur, um Effizienz bei der Handhabung von langen Kontexten und logischen Aufgaben zu bewahren.
Policy-Optimierungstechniken: GRPO bietet eine kosteneffektive, stabile Methode zur Policy-Optimierung, die den Bedarf an einem Kritiker-Modell vermeidet und den Rechenaufwand reduziert.
Ausrichtung auf reale Anwendungen: Das strukturierte Belohnungssystem stellt sicher, dass Modelle nicht nur in logischen Aufgaben gut abschneiden, sondern auch den Anforderungen realer Anwendungen entsprechen, was die Nutzbarkeit und Effektivität erhöht.

Quellen

Hat Ihnen dieser Beitrag gefallen? Fanden Sie ihn aufschlussreich? Hinterlassen Sie gerne einen Kommentar unten, um Ihre Gedanken mitzuteilen oder Fragen zu stellen. Ein GitHub-Konto ist erforderlich, um an der Diskussion teilzunehmen.