Le Voyage vers l'IA Générale : Une Perspective Historique et Technique

L'intelligence artificielle captive l'imagination humaine depuis des décennies. L'idée fondamentale tourne autour de la création de machines capables de faire preuve d'intelligence. Mais que signifie exactement "intelligent" dans ce contexte ? À la base, l'IA consiste à construire des systèmes dont les actions sont censées atteindre leurs objectifs prédéfinis. Cette définition n'est pas nouvelle ; elle s'appuie sur des milliers d'années de pensée philosophique et économique sur l'action rationnelle et la prise de décision.

De la maîtrise stratégique du jeu de Go par AlphaGo, où l'objectif est simplement de gagner, aux logiciels de navigation visant l'itinéraire le plus court, ou même aux entreprises entièrement automatisées conçues pour maximiser le rendement pour les actionnaires, ce principe fondamental d'action axée sur les objectifs sous-tend diverses applications de l'IA. Cependant, le domaine de l'IA nourrit une aspiration encore plus ambitieuse : la création d'une IA Générale, souvent appelée Intelligence Artificielle Générale (IAG). L'objectif de l'IAG est de développer des systèmes capables d'apprendre et d'exécuter n'importe quelle tâche à un niveau de compétence égal ou supérieur à celui de l'homme, dépassant ainsi les capacités humaines dans toutes les dimensions pertinentes. Cet article explore les tentatives historiques et les approches techniques employées dans cette grande quête de l'IAG.

Qu'est-ce que l'Intelligence Artificielle ? Définir le Concept Fondamental

À son niveau le plus fondamental, l'Intelligence Artificielle est l'effort visant à construire des machines intelligentes. La définition de l'intelligence dans ce contexte est restée constante depuis la création du domaine : une machine est considérée comme intelligente dans la mesure où ses actions sont susceptibles de l'aider à atteindre ses objectifs spécifiés. Cette perspective pragmatique et axée sur les objectifs de l'intelligence s'aligne étroitement sur la façon dont nous évaluons la rationalité et la prise de décision humaines, en empruntant des idées aux traditions philosophiques et économiques de longue date.

Considérez quelques exemples illustratifs :

AlphaGo : Développé par DeepMind, AlphaGo a été conçu pour jouer au jeu de plateau complexe du Go. Son unique objectif était de gagner la partie contre des adversaires humains ou d'autres ordinateurs. Grâce à des algorithmes sophistiqués et à un entraînement intensif, il a obtenu un succès remarquable, démontrant une intelligence dans le cadre étroit de cette tâche spécifique.
Logiciels de Navigation : Des applications comme Google Maps ou des systèmes de navigation automobile dédiés ont pour objectif de trouver l'itinéraire le plus efficace (temps le plus court, distance la plus courte, etc.) entre deux points, en naviguant sur les réseaux routiers du monde réel tout en tenant compte du trafic et d'autres conditions.
Entreprises Automatisées : Un concept émergent implique la création d'entités entièrement automatisées dont l'objectif principal, souvent défini légalement, est de maximiser le rendement attendu pour les actionnaires. Un tel système prendrait de manière autonome des décisions commerciales, gérerait les ressources et interagirait avec le marché en se basant uniquement sur cet objectif moteur.

Ces exemples soulignent l'applicabilité générale de la définition : l'action intelligente est une action dirigée vers l'atteinte d'un objectif. Ce cadre fournit une lentille puissante à travers laquelle concevoir et évaluer les systèmes d'IA dans divers domaines.

L'Objectif Ambitieux : L'Intelligence Artificielle Générale (IAG)

Alors que les systèmes d'IA spécifiques à un domaine comme ceux mentionnés ci-dessus sont devenus monnaie courante, la véritable aspiration de longue date du domaine de l'IA est la création de l'Intelligence Artificielle Générale (IAG). Contrairement à l'IA étroite, qui est conçue et entraînée pour une tâche spécifique (comme jouer au Go ou reconnaître des images), l'IAG vise la polyvalence.

L'objectif de l'IAG est de construire des systèmes d'IA capables de :

Apprendre Rapidement : Absorber efficacement de nouvelles informations et compétences.
Faire Preuve d'un Comportement de Haute Qualité : Exécuter des tâches aussi bien ou mieux que les humains.
S'adapter à N'importe Quelle Tâche : Appliquer leur apprentissage et leur intelligence à un large éventail de problèmes et d'environnements divers, sans être explicitement reprogrammés pour chaque nouveau défi.

Essentiellement, l'IAG cherche à reproduire ou à dépasser la flexibilité cognitive et la capacité d'apprentissage d'un esprit humain, et pas seulement sa capacité dans une seule compétence. Ce niveau d'intelligence générale représente un bond significatif au-delà des capacités actuelles de l'IA et constitue la frontière ultime pour de nombreux chercheurs dans le domaine.

Un Voyage à Travers l'Histoire de l'IA : Approches et Évolution

La quête de machines intelligentes a pris de nombreux tournants depuis sa création formelle. L'histoire de l'IA peut être largement catégorisée par les paradigmes dominants et les capacités technologiques de l'époque.

Les Premières Années (1950-1970) : Exploration et Raisonnement Symbolique

Le lieu de naissance de l'IA est souvent cité comme étant l'atelier de Dartmouth de 1956. Au cours de ces années naissantes, les chercheurs exploraient essentiellement les possibilités avec une puissance de calcul et une compréhension théorique limitées. Cette période pourrait être caractérisée comme une étape "regardez maman, sans les mains !" – essayer des choses ambitieuses sans feuille de route claire.

Deux approches clés ont émergé :

IA Symbolique : Ce paradigme se concentrait sur la représentation des connaissances à l'aide de symboles (comme des mots ou des prédicats logiques) et la manipulation de ces symboles selon des règles logiques. L'idée était de construire des systèmes capables de raisonner et de résoudre des problèmes en simulant des processus de pensée logique.
Apprentissage Automatique Précoce : Parallèlement aux méthodes symboliques, des concepts fondamentaux de l'apprentissage automatique ont été explorés, tels que les perceptrons. Il s'agissait de simples neurones artificiels, précurseurs des réseaux neuronaux massifs que nous voyons aujourd'hui.

Simultanément, certains chercheurs ont expérimenté des approches évolutives. En utilisant les premiers langages de programmation comme Fortran, ils créaient des programmes, les mutaient et les combinaient, espérant qu'avec le temps, des programmes "intelligents" évolueraient, imitant l'évolution biologique. Bien qu'intéressantes sur le plan conceptuel, ces premières tentatives évolutives ont été sévèrement entravées par les ressources informatiques incroyablement limitées disponibles à l'époque – des millions de millions de millions de fois moins puissantes que les systèmes actuels. Par conséquent, ces expériences n'ont pas donné de résultats significatifs, laissant le potentiel de cette approche utilisant l'informatique moderne une question ouverte, bien qu'actuellement inexplorée.

L'Émergence de la Discipline d'Ingénierie (1970-2010) : Logique, Probabilité et Systèmes de Connaissances

Des années 1970 au début des années 2010, le développement de l'IA a adopté une approche d'ingénierie plus structurée. Les outils de choix étaient des disciplines mathématiques et statistiques bien établies : la logique pour le raisonnement, les probabilités et les statistiques pour gérer l'incertitude et apprendre à partir des données, et l'optimisation pour trouver les meilleures solutions.

Cette ère a vu l'essor des systèmes à base de connaissances. Ces systèmes étaient conçus pour intégrer les connaissances d'experts humains dans un programme informatique, lui permettant d'effectuer des raisonnements et de résoudre des problèmes dans un domaine spécifique.

Un développement significatif au cours de cette période a été le boom des Systèmes Experts à la fin des années 1970 et au début des années 1980. Les entreprises ont investi massivement, croyant que ces systèmes, remplis de connaissances expertes, pourraient résoudre un large éventail de problèmes commerciaux nécessitant une expertise. Cependant, cette technologie s'est avérée trop rigide et "cassante". Ils avaient du mal avec les situations en dehors de leur base de connaissances prédéfinie et étaient difficiles à maintenir et à faire évoluer. À la fin des années 1980, les limites sont devenues apparentes, conduisant à une perception d'échec et à une baisse significative de l'intérêt et des investissements connue sous le nom d'Hiver de l'IA. Cette période, analogue à un hiver nucléaire, a vu les financements se tarir, les étudiants éviter les cours d'IA et une stagnation générale dans le domaine pendant environ une décennie.

Accélération et Apprentissage Profond (1990-Présent) : Données, Calcul et Percées

Malgré l'hiver de l'IA, la recherche s'est poursuivie dans les années 1990, menant à de nouvelles idées et à une augmentation significative de la profondeur mathématique du domaine. Cependant, l'intérêt commercial est resté faible.

Le paysage a commencé à changer radicalement vers 2010 avec l'émergence de l'Apprentissage Profond (Deep Learning). S'appuyant sur les premiers perceptrons et la recherche sur les réseaux neuronaux, l'apprentissage profond consiste à entraîner de très grands réseaux neuronaux avec de nombreuses couches ("profondes") sur des ensembles de données massifs. Cette résurgence a été alimentée par plusieurs facteurs :

Disponibilité du Big Data : La numérisation a conduit à d'énormes ensembles de données (images, texte, parole).
Augmentation de la Puissance de Calcul : L'essor des puissants GPU (Processeurs Graphiques) a fourni les capacités de traitement parallèle nécessaires pour entraîner de grands réseaux.
Avancées Algorithmiques : Améliorations des techniques d'entraînement et des architectures de réseaux.

L'apprentissage profond a réalisé des percées significatives dans des domaines qui étaient auparavant insolubles pour l'IA, tels que :

Reconnaissance Vocale : Transcription précise de la langue parlée.
Vision par Ordinateur : Compréhension et interprétation d'images et de vidéos.
Traduction Automatique : Traduction de texte ou de parole entre les langues.

Plus récemment, cette tendance a évolué vers les Modèles de Fondation – des modèles d'apprentissage profond extrêmement grands, souvent entraînés sur de vastes quantités de texte et de code, comme les modèles alimentant l'IA conversationnelle moderne. Ces modèles, avec leur polyvalence apparente et leur capacité à effectuer de nombreuses tâches différentes basées sur des invites, sont de plus en plus considérés comme des blocs de construction potentiels vers l'atteinte de l'objectif longtemps recherché de l'IA générale.

À l'Intérieur de la Boîte de l'IA : Entrée, Traitement, Comportement

Quelle que soit l'époque historique ou la technologie spécifique utilisée, un système d'IA peut être conceptualisé comme un processus qui prend une entrée sensorielle, la traite et produit un comportement.

Entrée Sensorielle : Cela peut provenir de diverses sources – texte d'un clavier, pixels d'une caméra, lectures de capteurs, entrées de base de données, etc.
Traitement : C'est le cœur du système d'IA – les algorithmes et les structures de connaissances qui transforment l'entrée en une décision ou une action. C'est cette "boîte" que les chercheurs ont essayé de remplir avec différentes méthodes tout au long de l'histoire.
Comportement : La sortie du système – afficher du texte à l'écran, déplacer un bras robotique, prononcer une réponse, générer du code, diriger un véhicule, etc.

Le défi central a toujours été : Comment remplir efficacement cette boîte de traitement pour produire un comportement intelligent à travers différentes tâches ?

Approches du Traitement : De l'Évolution aux Programmes Probabilistes

Historiquement, diverses stratégies ont été employées pour remplir la boîte de traitement de l'IA :

Premières Tentatives Évolutives (années 1950) : Comme mentionné, les premières idées comprenaient la prise de programmes simples (comme du code Fortran), l'application de mutations et de croisements aléatoires (comme l'évolution biologique), et la sélection de programmes qui fonctionnaient mieux sur une tâche. Cette approche, bien qu'inspirée biologiquement, a échoué en raison du manque flagrant de puissance de calcul nécessaire pour explorer le vaste espace des programmes possibles.
Systèmes à Base de Connaissances : Pendant une grande partie de l'histoire de l'IA, la boîte était remplie de représentations formelles des connaissances. Initialement, cela utilisait la logique mathématique, qui est bonne pour représenter des règles strictes et des déductions. Plus tard, la théorie des probabilités a été intégrée pour gérer l'incertitude et permettre aux systèmes de raisonner avec des informations incomplètes ou bruitées.

La Puissance de la Programmation Probabiliste

Une technologie particulièrement puissante qui a émergé de l'approche basée sur les connaissances, à partir de la fin des années 1990, est la Programmation Probabiliste. Bien qu'elle ne soit pas aussi largement rapportée dans les médias populaires que l'apprentissage profond, elle représente une avancée significative dans la combinaison de la représentation formelle des connaissances avec le calcul flexible.

Les langages de programmation probabiliste (PPL) combinent la puissance de la théorie des probabilités (les mathématiques de l'incertitude, qui sous-tendent également l'apprentissage profond) avec la capacité expressive des langages de programmation à usage général (comme Python) ou de la logique du premier ordre.

Cette combinaison offre un avantage crucial : une représentation puissante. Alors que les modèles d'apprentissage profond excellent à reconnaître des motifs dans les données, leur structure sous-jacente (essentiellement des circuits massifs) peut être remarquablement inefficace pour représenter des connaissances ou des règles structurées.

Considérez le jeu de Go :

Pour encoder explicitement les règles du Go dans un langage de circuit d'apprentissage profond, il faudrait quelque chose de l'ordre d'un million de pages de définitions.
En revanche, en utilisant un langage de programmation probabiliste ou la logique du premier ordre, les règles complètes du Go peuvent être écrites de manière concise en environ une page.

Cette différence frappante met en évidence une limitation fondamentale du pouvoir de représentation de l'apprentissage profond lorsqu'il s'agit de connaissances complexes et structurées ou de règles explicites. La programmation probabiliste, en tirant parti de la puissance expressive des langages de programmation à usage général, peut accéder et utiliser directement ce type de connaissances, conduisant à des modèles puissants et interprétables.

Un Impact dans le Monde Réel : Le Système de Surveillance du Traité d'Interdiction Complète des Essais Nucléaires

La puissance de la programmation probabiliste et des approches basées sur les connaissances est peut-être mieux illustrée par une application concrète ayant un impact mondial significatif : la surveillance du respect du Traité d'interdiction complète des essais nucléaires.

Le traité interdit toutes les explosions nucléaires partout sur Terre. L'organisation chargée de sa mise en œuvre, basée à Vienne, exploite un vaste réseau de centaines de stations de surveillance dans le monde entier. Ces stations sont incroyablement sensibles, en particulier les stations sismiques, qui peuvent détecter des mouvements du sol aussi petits qu'un nanomètre – la taille de quelques atomes seulement.

Chaque jour, ces stations transmettent d'énormes quantités de données brutes – vibrations sismiques, infrasons, signaux hydroacoustiques et mesures de radionucléides – à Vienne. La tâche cruciale consiste à analyser ces données pour identifier tous les événements significatifs, en distinguant les phénomènes naturels comme les tremblements de terre, les glissements de terrain et l'activité volcanique, des événements artificiels comme les explosions chimiques ou, plus important encore, les explosions nucléaires. Cet effort de surveillance est essentiel et consomme une part importante du budget mondial de la géophysique.

Formuler ce problème en utilisant la programmation probabiliste implique :

Collecter les Preuves : Les flux de données brutes de toutes les stations de surveillance.
Poser une Question : Compte tenu de ces preuves, quels événements (lieu, heure, type) se sont produits aujourd'hui ?
Utiliser un Modèle Probabiliste : Le système emploie un modèle probabiliste qui représente la géophysique sous-jacente :
- Où et comment différents types d'événements se produisent (principalement près de la surface de la Terre).
- Comment les signaux se propagent à travers la Terre via divers chemins complexes (certains signaux font même plusieurs fois le tour du noyau terrestre).
- Comment les signaux sont détectés par différents types de capteurs.
- Les niveaux de bruit de fond à chaque station.

Crucialement, tout ce modèle géophysique complexe peut être écrit de manière très concise dans un langage de programmation probabiliste.

Un système développé en utilisant cette approche pour surveiller le Traité d'interdiction complète des essais nucléaires a nécessité environ 20 minutes pour écrire le modèle de base. Ce système analyse ensuite les données entrantes et fournit une évaluation probabiliste des événements qui se sont produits.

Les résultats ont été remarquables. Ce système, développé en une fraction du temps, est environ trois fois plus performant pour identifier et caractériser les événements que le système de surveillance précédent, qui avait été développé par la communauté sismologique sur environ 100 années collectives d'efforts. Le système a détecté avec succès et précision des événements significatifs, y compris les explosions nucléaires menées par la Corée du Nord, fournissant une analyse instantanée basée sur les données sismiques entrantes. Ceci constitue un exemple convaincant de la manière dont une représentation sophistiquée des connaissances combinée à une inférence probabiliste puissante peut produire des systèmes d'IA très efficaces pour des problèmes complexes du monde réel, surpassant parfois les méthodes développées pendant des décennies par des experts humains utilisant des techniques traditionnelles.

Source(s)

YouTube Video Transcript: The Path to General Purpose AI

Vous avez apprécié cet article ? Vous l'avez trouvé instructif ? N'hésitez pas à laisser un commentaire ci-dessous pour partager vos réflexions ou poser des questions. Un compte GitHub est requis pour participer à la discussion.