Los Conceptos

Antes de entrar en detalles, primero definamos algunos conceptos clave (en orden alfabético).

Agente de IA

Un agente de inteligencia artificial (IA) es un programa de software diseñado para realizar tareas de manera autónoma, sin intervención humana directa.

Los agentes de IA pueden interactuar con su entorno, recopilar información y tomar acciones para alcanzar objetivos específicos. Están especializados para diversos propósitos, incluyendo la automatización de tareas, la toma de decisiones, la resolución de problemas y la interacción en lenguaje natural, a menudo con la capacidad de adaptarse o mejorar con el tiempo.

Fuente(s):
(https://startup-house.com/glossary/ai-agent-definition)

IA Generativa

La IA generativa es una rama de la inteligencia artificial enfocada en construir modelos que pueden crear nuevo contenido aprendiendo patrones de datos de entrenamiento. Este contenido puede incluir texto, imágenes, audio u otras formas de datos.

En términos probabilísticos, la IA generativa busca aprender la distribución de probabilidad p(x) sobre un conjunto de datos X, representando la probabilidad de observar un punto de datos específico x. El objetivo final es generar nuevas muestras que se alineen con esta distribución aprendida. Los modelos generativos intentan capturar la estructura subyacente de los datos estimando estas probabilidades.

En contraste, los modelos discriminativos se centran en estimar la probabilidad de una etiqueta y dada una observación x, o p(y|x).

Uniendo ambos conceptos, los modelos generativos condicionales buscan modelar la probabilidad condicional de observar x dada una etiqueta y, es decir, p(x|y).

Fuente(s):
David Foster. Generative Deep Learning, 2nd Edition. O'Reilly Media, 2023

LLM

Un Modelo de Lenguaje Grande (LLM, por sus siglas en inglés) es un tipo de inteligencia artificial que puede reconocer y generar texto, entre otras tareas. Los LLM se entrenan en grandes conjuntos de datos, a menudo compuestos por miles de millones de palabras, y se construyen utilizando redes neuronales, particularmente modelos de transformadores.

Una definición más técnica describe un LLM como una red neuronal con miles de millones de parámetros, entrenada en grandes cantidades de texto no etiquetado utilizando técnicas de aprendizaje autosupervisado.

Fuente(s):
Cloudflare
Graphable

El artículo A Comprehensive Overview of Large Language Models proporciona una exploración detallada de los LLM, centrándose en su arquitectura, particularmente en los modelos de transformadores y los mecanismos de atención. Cubre conceptos clave como tokenización, codificación posicional y entrenamiento distribuido. Puedes acceder al artículo completo aquí:

https://ar5iv.org/2307.06435

RAG

Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) es una arquitectura de IA que mejora los modelos de lenguaje grandes (LLM) incorporando información externa para mejorar la precisión y relevancia de sus salidas. Recupera datos relevantes de fuentes como bases de datos o documentos, utilizándolos para proporcionar contexto adicional al modelo. Esta información recuperada se combina con la consulta original en el prompt, permitiendo que el modelo genere respuestas basadas en conocimiento externo.

Fuente(s):
Técnicas Avanzadas de RAG: una Visión Ilustrada

¿Disfrutaste este post? ¿Te resultó útil? No dudes en dejar un comentario a continuación para compartir tus pensamientos o hacer preguntas. Se requiere una cuenta de GitHub para unirse a la discusión.