El viaje hacia la IA de propósito general: una perspectiva histórica y técnica

La inteligencia artificial ha cautivado la imaginación humana durante décadas. La idea fundamental gira en torno a la creación de máquinas capaces de exhibir inteligencia. Pero, ¿qué significa exactamente "inteligente" en este contexto? En esencia, la IA consiste en construir sistemas cuyas acciones se espera que logren sus objetivos predefinidos. Esta definición no es nueva; se basa en miles de años de pensamiento filosófico y económico sobre la acción racional y la toma de decisiones.

Desde la maestría estratégica de AlphaGo en el juego de Go, donde el objetivo es simplemente ganar, hasta el software de navegación que busca la ruta más corta, o incluso corporaciones totalmente automatizadas diseñadas para maximizar el retorno para los accionistas, este principio central de acción impulsada por objetivos sustenta diversas aplicaciones de IA. Sin embargo, el campo de la IA alberga una aspiración aún más ambiciosa: la creación de IA de Propósito General, a menudo denominada Inteligencia Artificial General (IAG). El objetivo de la IAG es desarrollar sistemas capaces de aprender y realizar cualquier tarea con una competencia igual o superior a la humana, superando efectivamente las capacidades humanas en todas las dimensiones relevantes. Esta publicación profundiza en los intentos históricos y los enfoques técnicos empleados en esta gran búsqueda de la IAG.

¿Qué es la Inteligencia Artificial? Definiendo el concepto central

En su nivel más fundamental, la Inteligencia Artificial es el esfuerzo por construir máquinas inteligentes. La definición de inteligencia en este contexto ha sido consistente desde el inicio del campo: se considera que una máquina es inteligente en la medida en que sus acciones probablemente la ayuden a alcanzar sus objetivos especificados. Esta perspectiva pragmática y orientada a objetivos sobre la inteligencia se alinea estrechamente con la forma en que evaluamos la racionalidad y la toma de decisiones humanas, tomando prestadas ideas de tradiciones filosóficas y económicas de larga data.

Consideremos algunos ejemplos ilustrativos:

AlphaGo: Desarrollado por DeepMind, AlphaGo fue diseñado para jugar al complejo juego de mesa Go. Su único objetivo era ganar el juego contra oponentes humanos u otras computadoras. Mediante algoritmos sofisticados y un entrenamiento extensivo, logró un éxito notable, demostrando inteligencia dentro del estrecho alcance de esta tarea específica.
Software de navegación: Aplicaciones como Google Maps o sistemas de navegación dedicados para automóviles tienen el objetivo de encontrar la ruta más eficiente (tiempo más corto, distancia más corta, etc.) entre dos puntos, navegando por redes de carreteras del mundo real mientras se tiene en cuenta el tráfico y otras condiciones.
Corporaciones automatizadas: Un concepto emergente implica la creación de entidades totalmente automatizadas cuyo objetivo principal, a menudo definido legalmente, es maximizar el retorno esperado para los accionistas. Tal sistema tomaría decisiones comerciales de forma autónoma, gestionaría recursos e interactuaría con el mercado basándose únicamente en este objetivo impulsor.

Estos ejemplos resaltan la aplicabilidad general de la definición: la acción inteligente es una acción dirigida a lograr un objetivo. Este marco proporciona una lente poderosa a través de la cual diseñar y evaluar sistemas de IA en diversos dominios.

El objetivo ambicioso: Inteligencia Artificial General (IAG)

Si bien los sistemas de IA específicos de dominio como los mencionados anteriormente se han vuelto comunes, la verdadera aspiración de larga data del campo de la IA es la creación de la Inteligencia Artificial General (IAG). A diferencia de la IA estrecha, que está diseñada y entrenada para una tarea específica (como jugar al Go o reconocer imágenes), la IAG busca la versatilidad.

El objetivo de la IAG es construir sistemas de IA que puedan:

Aprender rápidamente: Absorber nueva información y habilidades de manera eficiente.
Exhibir un comportamiento de alta calidad: Realizar tareas tan bien o mejor que los humanos.
Adaptarse a cualquier tarea: Aplicar su aprendizaje e inteligencia en una amplia gama de problemas y entornos diversos, sin ser reprogramados explícitamente para cada nuevo desafío.

Esencialmente, la IAG busca replicar o superar la flexibilidad cognitiva y la capacidad de aprendizaje de una mente humana, no solo su habilidad en una única destreza. Este nivel de inteligencia general representa un salto significativo más allá de las capacidades actuales de la IA y es la frontera definitiva para muchos investigadores en el campo.

Un viaje a través de la historia de la IA: Enfoques y evolución

La búsqueda de máquinas inteligentes ha dado muchas vueltas desde su inicio formal. La historia de la IA puede clasificarse a grandes rasgos según los paradigmas dominantes y las capacidades tecnológicas de la época.

Los primeros años (décadas de 1950-1970): Exploración y razonamiento simbólico

El lugar de nacimiento de la IA se cita a menudo como el Taller de Dartmouth de 1956. En estos años incipientes, los investigadores esencialmente exploraban posibilidades con un poder computacional limitado y una comprensión teórica escasa. Este período podría caracterizarse como una etapa de "¡mira mamá, sin manos!", intentando cosas ambiciosas sin una hoja de ruta clara.

Surgieron dos enfoques clave:

IA simbólica: Este paradigma se centró en representar el conocimiento utilizando símbolos (como palabras o predicados lógicos) y manipular estos símbolos de acuerdo con reglas lógicas. La idea era construir sistemas que pudieran razonar y resolver problemas simulando procesos de pensamiento lógico.
Aprendizaje automático temprano: Junto con los métodos simbólicos, se exploraron conceptos fundamentales del aprendizaje automático, como los perceptrones. Eran neuronas artificiales simples, precursoras de las redes neuronales masivas que vemos hoy.

Simultáneamente, algunos investigadores experimentaron con enfoques evolutivos. Utilizando lenguajes de programación tempranos como Fortran, creaban programas, los mutaban y los combinaban, esperando que con el tiempo evolucionaran programas "inteligentes", imitando la evolución biológica. Aunque conceptualmente interesantes, estos primeros intentos evolutivos se vieron gravemente obstaculizados por los recursos computacionales increíblemente limitados disponibles en ese momento: millones de millones de millones de veces menos potencia que los sistemas actuales. En consecuencia, estos experimentos no arrojaron resultados significativos, dejando abierto, aunque actualmente inexplorado, el potencial de este enfoque utilizando la computación moderna.

Surge la disciplina de ingeniería (décadas de 1970-2010): Lógica, probabilidad y sistemas de conocimiento

Desde la década de 1970 hasta principios de la de 2010, el desarrollo de la IA adoptó un enfoque de ingeniería más estructurado. Las herramientas elegidas fueron disciplinas matemáticas y estadísticas bien establecidas: la lógica para el razonamiento, la probabilidad y la estadística para manejar la incertidumbre y aprender de los datos, y la optimización para encontrar las mejores soluciones.

Esta era vio el auge de los sistemas basados en el conocimiento. Estos sistemas fueron diseñados para incorporar el conocimiento experto humano en un programa informático, permitiéndole realizar razonamientos y resolver problemas dentro de un dominio específico.

Un desarrollo significativo en este período fue el auge de los Sistemas Expertos a finales de la década de 1970 y principios de la de 1980. Las empresas invirtieron fuertemente, creyendo que estos sistemas, llenos de conocimiento experto, podrían resolver una amplia gama de problemas empresariales que requerían experiencia. Sin embargo, esta tecnología demostró ser demasiado rígida y "frágil". Tenían dificultades con situaciones fuera de su base de conocimientos predefinida y eran difíciles de mantener y escalar. A finales de la década de 1980, las limitaciones se hicieron evidentes, lo que llevó a una percepción de fracaso y a una disminución significativa del interés y la inversión conocida como el Invierno de la IA. Este período, análogo a un invierno nuclear, vio cómo se agotaba la financiación, los estudiantes evitaban los cursos de IA y se producía un estancamiento general en el campo durante aproximadamente una década.

Aceleración y aprendizaje profundo (década de 1990-presente): Datos, computación y avances

A pesar del invierno de la IA, la investigación continuó en la década de 1990, dando lugar a nuevas ideas y a un aumento significativo de la profundidad matemática del campo. Sin embargo, el interés comercial se mantuvo bajo.

El panorama comenzó a cambiar drásticamente alrededor de 2010 con la aparición del Aprendizaje Profundo (Deep Learning). Basándose en los primeros perceptrones y la investigación de redes neuronales, el aprendizaje profundo implica entrenar redes neuronales muy grandes con muchas capas ("profundas") en conjuntos de datos masivos. Este resurgimiento fue impulsado por varios factores:

Disponibilidad de Big Data: La digitalización condujo a enormes conjuntos de datos (imágenes, texto, voz).
Mayor potencia computacional: El auge de potentes GPU (Unidades de Procesamiento Gráfico) proporcionó las capacidades de procesamiento paralelo necesarias para entrenar grandes redes.
Avances algorítmicos: Mejoras en las técnicas de entrenamiento y arquitecturas de red.

El aprendizaje profundo logró avances significativos en áreas que anteriormente habían sido intratables para la IA, como:

Reconocimiento de voz: Transcribir con precisión el lenguaje hablado.
Visión por computadora: Comprender e interpretar imágenes y videos.
Traducción automática: Traducir texto o voz entre idiomas.

Más recientemente, esta tendencia ha evolucionado hacia los Modelos Fundacionales: modelos de aprendizaje profundo extremadamente grandes, a menudo entrenados con grandes cantidades de texto y código, como los modelos que impulsan la IA conversacional moderna. Estos modelos, con su aparente versatilidad y capacidad para realizar muchas tareas diferentes basadas en indicaciones (prompts), se consideran cada vez más como posibles bloques de construcción para alcanzar el objetivo largamente buscado de la IA de propósito general.

Dentro de la caja de la IA: Entrada, procesamiento, comportamiento

Independientemente de la era histórica o la tecnología específica utilizada, un sistema de IA puede conceptualizarse como un proceso que toma entradas sensoriales, las procesa y produce un comportamiento.

Entrada sensorial: Puede provenir de diversas fuentes: texto de un teclado, píxeles de una cámara, lecturas de sensores, entradas de bases de datos, etc.
Procesamiento: Este es el núcleo del sistema de IA: los algoritmos y las estructuras de conocimiento que transforman la entrada en una decisión o acción. Esta "caja" es lo que los investigadores han intentado llenar con diferentes métodos a lo largo de la historia.
Comportamiento: La salida del sistema: mostrar texto en una pantalla, mover un brazo robótico, pronunciar una respuesta, generar código, dirigir un vehículo, etc.

El desafío central siempre ha sido: ¿Cómo llenamos esa caja de procesamiento de manera efectiva para producir un comportamiento inteligente en diferentes tareas?

Enfoques del procesamiento: De la evolución a los programas probabilísticos

Históricamente, se han empleado diversas estrategias para llenar la caja de procesamiento de la IA:

Intentos evolutivos tempranos (década de 1950): Como se mencionó, las primeras ideas incluían tomar programas simples (como código Fortran), aplicar mutaciones aleatorias y cruces (como la evolución biológica) y seleccionar los programas que funcionaban mejor en una tarea. Este enfoque, aunque de inspiración biológica, fracasó debido a la enorme falta de potencia computacional necesaria para explorar el vasto espacio de programas posibles.
Sistemas basados en el conocimiento: Durante gran parte de la historia de la IA, la caja se llenó con representaciones formales del conocimiento. Inicialmente, esto utilizó la lógica matemática, que es buena para representar reglas estrictas y deducciones. Más tarde, se integró la teoría de la probabilidad para manejar la incertidumbre y permitir que los sistemas razonen con información incompleta o ruidosa.

El poder de la programación probabilística

Una tecnología particularmente poderosa que surgió del enfoque basado en el conocimiento, a partir de finales de la década de 1990, es la Programación Probabilística. Aunque no tan ampliamente difundida en los medios populares como el aprendizaje profundo, representa un avance significativo en la combinación de la representación formal del conocimiento con la computación flexible.

Los lenguajes de programación probabilística (PPLs) combinan el poder de la teoría de la probabilidad (las matemáticas de la incertidumbre, que también sustentan el aprendizaje profundo) con la capacidad expresiva de los lenguajes de programación de propósito general (como Python) o la lógica de primer orden.

Esta combinación ofrece una ventaja crucial: una representación potente. Si bien los modelos de aprendizaje profundo sobresalen en el reconocimiento de patrones en los datos, su estructura subyacente (esencialmente circuitos masivos) puede ser notablemente ineficiente para representar conocimiento estructurado o reglas.

Consideremos el juego de Go:

Codificar explícitamente las reglas del Go en un lenguaje de circuitos de aprendizaje profundo podría requerir algo del orden de un millón de páginas de definiciones.
En contraste, utilizando un lenguaje de programación probabilística o lógica de primer orden, las reglas completas del Go se pueden escribir de forma concisa en aproximadamente una página.

Esta marcada diferencia resalta una limitación fundamental del poder de representación del aprendizaje profundo al tratar con conocimiento complejo y estructurado o reglas explícitas. La programación probabilística, al aprovechar el poder expresivo de los lenguajes de programación de propósito general, puede acceder y utilizar este tipo de conocimiento directamente, lo que lleva a modelos potentes e interpretables.

Un impacto en el mundo real: El sistema de monitoreo del Tratado de Prohibición Completa de los Ensayos Nucleares

El poder de la programación probabilística y los enfoques basados en el conocimiento quizás se ilustre mejor con una aplicación del mundo real con un impacto global significativo: el monitoreo del cumplimiento del Tratado de Prohibición Completa de los Ensayos Nucleares.

El tratado prohíbe todas las explosiones nucleares en cualquier lugar de la Tierra. La organización encargada de su implementación, con sede en Viena, opera una vasta red de cientos de estaciones de monitoreo en todo el mundo. Estas estaciones son increíblemente sensibles, particularmente las sísmicas, que pueden detectar movimientos del suelo tan pequeños como un nanómetro, el tamaño de unos pocos átomos.

Todos los días, estas estaciones transmiten enormes cantidades de datos brutos (vibraciones sísmicas, infrasonidos, señales hidroacústicas y mediciones de radionúclidos) a Viena. La tarea crucial es analizar estos datos para identificar todos los eventos significativos, distinguiendo entre fenómenos naturales como terremotos, deslizamientos de tierra y actividad volcánica, y eventos artificiales como explosiones químicas o, lo más importante, explosiones nucleares. Este esfuerzo de monitoreo es crítico y consume una parte significativa del presupuesto mundial de geofísica.

Formular este problema utilizando programación probabilística implica:

Recopilar evidencia: Los flujos de datos brutos de todas las estaciones de monitoreo.
Hacer una pregunta: Dada esta evidencia, ¿qué eventos (ubicación, hora, tipo) ocurrieron hoy?
Usar un modelo probabilístico: El sistema emplea un modelo probabilístico que representa la geofísica subyacente:
- Dónde y cómo ocurren los diferentes tipos de eventos (principalmente cerca de la superficie terrestre).
- Cómo se propagan las señales a través de la Tierra por diversas rutas complejas (algunas señales incluso viajan alrededor del núcleo de la Tierra varias veces).
- Cómo son detectadas las señales por diferentes tipos de sensores.
- Los niveles de ruido de fondo en cada estación.

Fundamentalmente, todo este complejo modelo geofísico se puede escribir de forma muy concisa en un lenguaje de programación probabilística.

Un sistema desarrollado utilizando este enfoque para monitorear el Tratado de Prohibición de Ensayos Nucleares tardó aproximadamente 20 minutos en escribir el modelo central. Este sistema luego analiza los datos entrantes y proporciona una evaluación probabilística de los eventos ocurridos.

Los resultados han sido notables. Este sistema, desarrollado en una fracción del tiempo, funciona aproximadamente tres veces mejor en la identificación y caracterización de eventos que el sistema de monitoreo anterior, que había sido desarrollado por la comunidad de sismología durante aproximadamente 100 años colectivos de esfuerzo. El sistema ha detectado con éxito y precisión eventos significativos, incluidas las explosiones nucleares realizadas por Corea del Norte, proporcionando un análisis instantáneo basado en los datos sísmicos entrantes. Esto se erige como un ejemplo convincente de cómo la representación sofisticada del conocimiento combinada con una potente inferencia probabilística puede producir sistemas de IA altamente efectivos para problemas complejos del mundo real, superando a veces los métodos desarrollados durante décadas por expertos humanos utilizando técnicas tradicionales.

Fuente(s)

YouTube Video Transcript: The Path to General Purpose AI

¿Disfrutaste esta publicación? ¿La encontraste reveladora? Siéntete libre de dejar un comentario a continuación para compartir tus pensamientos o hacer preguntas. Se requiere una cuenta de GitHub para unirse a la discusión.