Qwq-32b

Publié le
7 mars 20254 min0Commentaires
QwQ-32B : Une percée dans l'apprentissage par renforcement pour les grands modèles de langage
Découvrez comment QwQ-32B, un modèle de 32 milliards de paramètres, exploite l'apprentissage par renforcement pour atteindre des performances de pointe en raisonnement et en utilisation d'outils, rivalisant avec des modèles ayant un nombre de paramètres bien plus élevé.
Lire la suite