Qwq-32b

Publicado el
7 mar 20254 min0Comentarios
QwQ-32B: Un avance en el aprendizaje por refuerzo para modelos de lenguaje grandes
Descubre cómo QwQ-32B, un modelo de 32 mil millones de parámetros, aprovecha el aprendizaje por refuerzo para lograr un rendimiento de vanguardia en razonamiento y uso de herramientas, rivalizando con modelos con un número significativamente mayor de parámetros.
Leer más