Publié le6 mars 2025DeepSeek-R1-Zero et DeepSeek-R1 : Analyse de l'Apprentissage par Renforcement et du Fine-TuningDeepSeek-R1DeepSeek-R1-ZeroLLMsReinforcement LearningSupervised Fine-TuningMixture-of-ExpertsReasoning ModelsUne analyse approfondie de DeepSeek-R1-Zero et DeepSeek-R1, couvrant l'Apprentissage par Renforcement (RL), le Fine-Tuning Supervisé (SFT), l'architecture et les améliorations de performance.