Deepseek-r1-zero

Published on
Mar 6, 20258 min0Comments
DeepSeek-R1-Zero and DeepSeek-R1: Reinforcement Learning & Fine-Tuning Analysis
A comprehensive breakdown of DeepSeek-R1-Zero and DeepSeek-R1, covering Reinforcement Learning (RL), Supervised Fine-Tuning (SFT), architecture, and performance improvements.
Read more