Supervised-fine-tuning

Publié le
6 mars 202510 min0Commentaires
DeepSeek-R1-Zero et DeepSeek-R1 : Analyse de l'Apprentissage par Renforcement et du Fine-Tuning
Une analyse approfondie de DeepSeek-R1-Zero et DeepSeek-R1, couvrant l'Apprentissage par Renforcement (RL), le Fine-Tuning Supervisé (SFT), l'architecture et les améliorations de performance.
Lire la suite