Publicado el

DeepSeek-R1-Zero y DeepSeek-R1: Análisis de Aprendizaje por Refuerzo y Fine-Tuning

9 min read
Autores
  • Profile picture of aithemes.net
    Nombre
    aithemes.net
    Twitter

Introducción

Este post sigue la investigación detallada en el artículo DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning de DeepSeek AI. El artículo explora cómo el aprendizaje por refuerzo puede mejorar las habilidades de razonamiento en modelos de lenguaje grandes (LLMs).

DeepSeek-R1-Zero y DeepSeek-R1 son dos modelos de vanguardia construidos sobre DeepSeek-V3-Base, aprovechando técnicas de Aprendizaje por Refuerzo para mejorar las capacidades de razonamiento. Este post proporciona un examen preciso de sus innovaciones arquitectónicas, estrategias de entrenamiento y mejoras de rendimiento.

DeepSeek-V3-Base: La Base

Tanto DeepSeek-R1-Zero como DeepSeek-R1 se originan en DeepSeek-V3-Base, un LLM de Mixture-of-Experts (MoE) con:

  • 671 mil millones de parámetros totales (37 mil millones activos por token durante la inferencia)
  • Ventana de contexto de 128K tokens para manejar razonamiento de contexto largo
  • Multi-Head Latent Attention (MLA) y arquitectura DeepSeek-MoE
  • Pre-entrenado en 14.8 billones de tokens

Estas innovaciones permiten un manejo eficiente de contextos largos y un rendimiento de razonamiento mientras se mantiene la viabilidad del entrenamiento.

Para una exploración detallada de DeepSeek-V3, consulta este post en mi blog, donde proporciono un análisis de su arquitectura.

DeepSeek-R1-Zero: Modelo de Aprendizaje por Refuerzo Puro

DeepSeek-R1-Zero fue entrenado completamente mediante Aprendizaje por Refuerzo (RL) usando Group Relative Policy Optimization (GRPO), sin ningún fine-tuning supervisado (SFT). Aspectos clave:

  • 📌 No se utilizaron datos anotados por humanos en el entrenamiento; el modelo aprendió habilidades de razonamiento puramente a través de RL.
  • 📌 Se utilizaron recompensas basadas en tareas, centrándose en incentivos basados en precisión y basados en formato.
  • 📌 Surgieron desafíos, como verbosidad, repetición e inconsistencias de formato, ya que el RL por sí solo no optimizaba la legibilidad.

A pesar de estos desafíos, R1-Zero logró un rendimiento notable, casi igualando a los modelos cerrados de primer nivel en tareas de razonamiento matemático y lógico.

DeepSeek-R1: Razonamiento Mejorado y Legibilidad

Para abordar las deficiencias de R1-Zero, DeepSeek-R1 incorporó un enfoque de entrenamiento híbrido:

  1. 🏁 SFT de arranque en frío: Un pequeño conjunto de demostraciones de razonamiento de alta calidad ayudó a establecer formato claro y razonamiento estructurado.
  2. 🏋️ RL enfocado en razonamiento: El aprendizaje por refuerzo a gran escala mejoró aún más su capacidad de resolución de problemas.
  3. 🔄 Aumento de datos y SFT adicional: Las mejores muestras de razonamiento de RL se utilizaron para fine-tunear el modelo nuevamente.
  4. 🎯 RLHF final y alineación: Una última fase de RL aseguró utilidad, seguridad y alineación con el usuario.

🔥 Mejoras Clave en DeepSeek-R1

  • 📝 Respuestas concisas y bien estructuradas
  • 🏆 Mayor precisión en tareas de razonamiento
  • 🌍 Consistencia del lenguaje mantenida
  • 🛡 Mejor alineación para aplicaciones del mundo real

Aprendizaje por Refuerzo

El Aprendizaje por Refuerzo (RL) es un paradigma de aprendizaje automático en el que un agente aprende a tomar decisiones interactuando con un entorno. La idea central es optimizar acciones basadas en recompensas, mejorando gradualmente el rendimiento con el tiempo.

Componentes Clave del RL:

  1. Agente – El modelo o algoritmo que toma decisiones.
  2. Entorno – El sistema con el que interactúa el agente.
  3. Acciones (A) – Las posibles elecciones que puede hacer el agente.
  4. Estado (S) – La situación actual que observa el agente.
  5. Recompensa (R) – Una señal que indica la calidad de una acción tomada.
  6. Política (π) – Una estrategia que mapea estados a acciones.

El proceso de aprendizaje sigue un ciclo:

  1. El agente observa el estado (S) del entorno.
  2. Selecciona una acción (A) basada en su política actual.
  3. El entorno responde con una recompensa (R) y un nuevo estado (S').
  4. El agente actualiza su política para maximizar recompensas futuras.

Fine-Tuning Supervisado

El Fine-Tuning Supervisado (SFT) es una técnica de entrenamiento en la que un modelo pre-entrenado se refina utilizando datos etiquetados de alta calidad. Este método asegura que el modelo aprenda respuestas estructuradas, formato claro y conocimiento específico de la tarea.

Aspectos Clave del SFT:

  • 🏗 Utiliza conjuntos de datos etiquetados donde las entradas están emparejadas con salidas ideales.
  • 🏆 Mejora la calidad de las respuestas, asegurando que el modelo siga pasos de razonamiento adecuados.
  • 🔧 Reduce las alucinaciones al fundamentar las respuestas en conocimiento curado.
  • 📝 Ayuda con el formato, haciendo que las salidas del modelo sean más legibles y estructuradas.

¿Qué es el SFT de arranque en frío?

El SFT de arranque en frío es un enfoque utilizado para iniciar el aprendizaje en un modelo entrenado con RL proporcionándole primero un pequeño pero conjunto de datos supervisados de alta calidad antes de que comience el aprendizaje por refuerzo. Esto ayuda a establecer:

  • 📏 Reglas de formato consistentes para las respuestas.
  • 🧠 Habilidades de razonamiento básicas antes del fine-tuning con RL.
  • 🚀 Convergencia más rápida al darle al modelo una base estructurada.

En DeepSeek-R1, el SFT de arranque en frío se utilizó para:

  1. Entrenar el modelo con un pequeño conjunto de ejemplos de razonamiento elaborados por expertos.
  2. Establecer pautas de formato claras para prevenir la verbosidad y la repetición en etapas posteriores de RL.
  3. Servir como un trampolín antes del aprendizaje por refuerzo a gran escala.

Group Relative Policy Optimization

Group Relative Policy Optimization (GRPO) es una técnica novedosa de aprendizaje por refuerzo que reduce los costos de entrenamiento estimando la línea base a partir de puntajes grupales en lugar de usar un modelo crítico. Este beneficio permite una mayor eficiencia en el entrenamiento, ya que elimina la necesidad de una red crítica separada, que puede ser costosa y compleja. Al usar puntajes grupales para establecer líneas base, GRPO mejora la estabilidad y robustez de las actualizaciones de políticas, resultando en resultados de aprendizaje más confiables.

Las siguientes secciones proporcionarán un desglose detallado de la formulación matemática de GRPO, destacando su objetivo de optimización, penalización de divergencia KL y estimación de ventaja.

Ideas Clave de GRPO

1. Estimación de Recompensa Relativa

GRPO evita la necesidad de un modelo crítico asignando recompensas basadas en comparaciones relativas dentro de un grupo de salidas. En lugar de estimar funciones de valor absoluto, calcula:

Ai=rimean(r1,r2,,rG)std(r1,r2,,rG)A_i = \frac{r_i - \text{mean}(r_1, r_2, \dots, r_G)}{\text{std}(r_1, r_2, \dots, r_G)}

donde AiA_i es la ventaja de una acción oio_i, medida en relación con otras acciones muestreadas en el mismo grupo. Aquí, r1,r2,,rGr_1, r_2, \dots, r_G representan las recompensas asignadas a varias acciones tomadas por el modelo en el mismo contexto, lo que ayuda a comparar su efectividad y determinar qué acciones funcionan mejor en relación con las demás.

2. Recorte de Relación de Política para Estabilidad

Para evitar actualizaciones inestables, GRPO adopta una relación de importancia recortada, inspirada en Proximal Policy Optimization (PPO):

L(oi,q,θ)=min(rt(θ)Ai,clip(rt(θ),1ϵ,1+ϵ)Ai)L(o_i, q, \theta) = \min \left( r_t(\theta) A_i, \text{clip} \left( r_t(\theta), 1 - \epsilon, 1 + \epsilon \right) A_i \right)

donde:

  • rt(θ)=πθ(oiq)πθold(oiq)r_t(\theta) = \frac{\pi_{\theta}(o_i | q)}{\pi_{\theta_{old}}(o_i | q)} es la relación de política. La relación de política mide la probabilidad de tomar la acción oio_i bajo la política actual πθ\pi_{\theta} en comparación con la política anterior πθold\pi_{\theta_{old}}. Es crucial para entender cuánto ha cambiado la política y para asegurar actualizaciones estables.
  • clip(rt(θ),1ϵ,1+ϵ)\text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) restringe la relación de política a un rango seguro.
  • AiA_i es la función de ventaja, determinando si la acción oio_i es mejor o peor que la media del grupo.
  • θ\theta denota los parámetros de la política actual, y qq representa la información de contexto o estado relevante para la acción tomada, asegurando que la política se adapte adecuadamente según la situación actual.

Esto asegura que las actualizaciones de política permanezcan dentro de un rango controlado, evitando actualizaciones demasiado grandes que puedan desestabilizar el entrenamiento. Si rt(θ)r_t(\theta) excede el umbral de recorte, se utiliza la versión recortada para evitar cambios excesivos en la política.

3. Regularización KL para Actualizaciones Controladas

GRPO aplica regularización de divergencia KL para evitar que la política diverja demasiado de una política de referencia:

DKL(πθπref)=oπref(oq)logπref(oq)πθ(oq)1.D_{KL} (\pi_{\theta} || \pi_{\text{ref}}) = \sum_{o} \pi_{\text{ref}}(o | q) \log \frac{\pi_{\text{ref}}(o | q)}{\pi_{\theta}(o | q)} - 1.

La divergencia KL es una medida de cómo una distribución de probabilidad diverge de una segunda distribución de probabilidad esperada. Un parámetro de ponderación β\beta controla cuánto se restringe la política.

4. Cálculo Eficiente de Recompensas en Aplicaciones Prácticas

En implementaciones como DeepSeek-R1, las recompensas se determinan mediante:

  • Recompensas basadas en precisión, donde las respuestas se evalúan frente a respuestas verdaderas.
  • Recompensas basadas en formato, asegurando salidas estructuradas (por ejemplo, hacer cumplir pasos de razonamiento dentro de etiquetas <think>).

Este sistema de recompensas estructurado permite que GRPO guíe a los modelos para producir respuestas tanto precisas como bien formateadas sin requerir una función de valor explícita.

Por qué GRPO Funciona

  • 🚀 No necesita un modelo crítico, reduciendo el costo computacional.
  • 🔄 La puntuación relativa asegura un entrenamiento estable, evitando señales de recompensa ruidosas.
  • 🎯 Actualizaciones recortadas y restricciones KL previenen cambios drásticos en la política.
  • Configuración de recompensas específicas de la tarea lo hace flexible en diferentes aplicaciones.

GRPO es un enfoque eficiente de aprendizaje por refuerzo que equilibra escalabilidad, estabilidad y rendimiento, haciéndolo ideal para aplicaciones modernas de IA.

Conclusión

  • Mejoras en el Aprendizaje por Refuerzo: El uso de aprendizaje por refuerzo, particularmente GRPO, mejora significativamente las capacidades de razonamiento sin depender de datos anotados por humanos, ofreciendo una solución escalable para entrenar modelos grandes.
  • Enfoque de Entrenamiento Híbrido: La combinación de aprendizaje por refuerzo con fine-tuning supervisado en DeepSeek-R1 aborda las limitaciones del RL por sí solo, mejorando la legibilidad y la alineación con el razonamiento humano.
  • Innovaciones Arquitectónicas: Los modelos DeepSeek aprovechan la arquitectura Mixture-of-Experts para mantener la eficiencia mientras manejan tareas de razonamiento de contexto largo.
  • Técnicas de Optimización de Políticas: GRPO proporciona un método rentable y estable para la optimización de políticas, evitando la necesidad de un modelo crítico y reduciendo la sobrecarga computacional.
  • Alineación con el Mundo Real: El sistema de recompensas estructurado asegura que los modelos no solo funcionen bien en tareas de razonamiento, sino que también se alineen con los requisitos de aplicaciones del mundo real, mejorando la usabilidad y efectividad.

Fuente(s)


¿Disfrutaste este post? ¿Lo encontraste interesante? Siéntete libre de dejar un comentario a continuación para compartir tus pensamientos o hacer preguntas. Se requiere una cuenta de GitHub para unirse a la discusión.