Capable, mais seulement modérément intelligent
À quel point ChatGPT est-il intelligent? Des chercheur.se.s du PRN Evolving Language testent son chatbot (programme de discussion) et cherchent à développer leur propre modèle de langage intelligent qui serait plus efficace, plus écologique et plus équitable.
par Roger Nickl.
© Pixabay
Depuis le lancement de ChatGPT par la compagnie américaine Open AI en octobre l’année dernière, le chatbot a fait la une des médias. Il est utilisé par des millions de personnes dans le monde entier. Le chatbot basé sur l’intelligence artificielle (IA) a des capacités incroyables : non seulement est-il capable de simuler l’intelligence humaine et d’écrire des textes, mais il arrive aussi à coder des programmes d’applications, résumer des articles, et présenter des problématiques complexes d’une manière simplifiée. Les élèves utilisent ChatGPT pour les aider à faire leurs devoirs, les étudiant.e.s apprennent avec, et le chatbot a aussi trouvé sa place dans la recherche. Les possibilités du système de langage alimenté par l’IA semblent presque illimitées. Mais à quel point ChatGPT est-il intelligent ? Et peut-il déjà faire jeu égal avec nous, les humains, en matière d’écriture et de recherche ?
Un fossé entre humains et robots
Dans une étude récente, Martin Volk se demande à quel point les textes écrits par ChatGPT diffèrent de ceux écrits par des humains. Pour ce faire, le linguiste computationnel, qui mène ses recherches à l’Université de Zürich et au PRN Evolving Language, a donné des tâches spécifiques au programme linguistique basé sur l’IA. Avec sa doctorante Anastassia Shaitarova, il a fourni à ChatGPT le titre et le premier paragraphe d’une série d’articles de journaux. Il lui a ensuite demandé les prochains 500 mots du texte en anglais et en allemand. Les deux chercheur.se.s ont ensuite comparé les textes écrits par l’humain à ceux générés par la machine.
« Notre hypothèse est que les humains, en l’occurrence les journalistes professionnel.lle.s, produisent des textes plus cohérents et utilisent plus de particules de liaison qu’un modèle de langage pré-entrainé comme ChatGPT, » explique Martin Volk. Les chercheur.se.s ont alors focalisé leur attention sur l’utilisation de conjonctions comme “bien que”, “ainsi” ou “néanmoins” dans les textes. L’hypothèse des chercheur.se.s est confirmée : les articles journalistiques utilisent au moins 10% de plus de particules de liaison que ceux générés par ordinateur. « Cela signifie que même si les textes de ChatGPT ont l’air très fluides, ils sont encore clairement différents de ceux écrits par un humain, » dit Martin Volk. Ce fossé se referme toutefois petit à petit.
En optimisation constante
Selon les derniers résultats de l’étude, il n’y a maintenant qu’une différence de quelques pourcents entre les textes, alors qu’il y a seulement deux mois et demi, la différence était frappante. « Dans un avenir proche, il ne sera plus possible de distinguer des textes générés par ChatGPT de ceux écrits par des humains, » ajoute Volk. « Cela s’applique à la plupart des textes de la vie quotidienne pour lesquels il existe de nombreux modèles – comme les lettres de recommandation et les lettres de motivation – mais aussi aux articles scientifiques, dont des millions sont disponibles en ligne. » Car c’est bien là que le système apprend et s’améliore.
Si tout cela est possible aujourd’hui, c’est parce que les capacités de ChatGPT sont constamment optimisées. D’une part, grâce à l’intelligence artificielle, le modèle de langage peut s’améliorer dans une certaine mesure et apprendre de son « expérience » (par exemple, du comportement des utilisateur.rice.s en matière de questionnement) ; d’autre part, le système est également alimenté en permanence par une grande partie d’intelligence humaine afin d’améliorer ses performances. ChatGPT peut se comporter de manière intelligente dans une certaine mesure, mais sa plus grande capacité est d’imiter l’intelligence humaine. Les développeur.se.s entraînent le modèle de langage de manière particulièrement intensive dans les domaines où le chatbot est en retard sur les textes humains, comme la cohérence du texte. Il en va de même pour les questions générales – et fréquemment posées – comme: « ChatGPT, est-ce que tu as une conscience ? » ou « Es-tu intelligent ? ». « Toute personne qui développe un chatbot doit d’abord s’assurer que les réponses à ces questions sont correctes, » souligne le linguiste computationnel Volk.
Trouver une niche
Pour explorer les possibilités et les limites du système linguistique, ainsi que pour minimiser l’influence des développeurs, Martin Volk a abordé un sujet de niche qui n’est que rarement sollicité et qui n’est donc pas dans le collimateur opérateurs de ChatGPT. « Nous voulions savoir comment le programme pouvait traiter des textes datant du 16ème siècle, » explique le chercheur, « en particulier des lettres par le réformateur zurichois Heinrich Bullinger, écrites en latin et en allemand du début de la période moderne. » Les chercheur.se.s sont partis du principe qu’Open AI n’avait pas spécifiquement optimisé le chatbot dans ce domaine.
Les résultats de cette analyse ont abasourdi les scientifiques : ChatGPT a traduit les textes en latin, en allemand et en anglais mieux que Google Translate, il a reconnu automatiquement les noms propres dans les lettres en latin, et les a liés à Wikipedia; et il est même parvenu dans une certaine mesure à reconstruire des lettres perdues de la vaste correspondance de Bullinger. « C’est pour cette raison que les modèles de langage basés sur l’IA pourraient aussi être intéressants pour la recherche historique à l’avenir, » analyse Volk, « parce qu’ils permettraient de reconstituer à grande échelle les textes des lettres manquantes, ce qui n’a été possible jusqu’à présent que dans le cadre d’un fastidieux microtravail mental. » Cela pourrait s’avérer utile dans le cas d’une correspondance importante comme celle de Heinrich Bullinger, où plusieurs milliers de lettres sont supposées avoir été perdues.
Les tests que Martin Volk réalise dans le cadre de sa recherche lui donnent aussi une idée de comment les systèmes linguistiques basés sur l’intelligence artificielle pourraient être développés et améliorés à l’avenir. Le linguiste ne se contente pas d’analyser les applications existantes telles que ChatGPT, il développe également ses propres systèmes. Le service de traduction en ligne TextShuttle, que propose sa start-up du même nom, est basé sur un tel système. « Quand on développera des nouveaux modèles de langage dans le futur, il s’agira également de trouver des niches intéressantes, qui sont pertinentes sur le plan social, mais peu intéressantes pour les grands acteurs tels qu’Open AI ou Google, » suggère le scientifique – par exemple des applications dans le contexte de langues historiques, de langues minoritaires ou de langues des signes.
Un besoin de modèles plus durables
La linguiste computationnelle Paola Merlo travaille aussi sur des modèles de langage innovants basés sur l’IA. « Pour développer ChatGPT, des quantités immenses de données ont été requises, et de milliards de paramètres ont été testés, » raconte la scientifique, qui mène ses recherches à l’Université de Genève et au PRN Evolving Language, « ce qui est extrêmement coûteux et consomme des quantités énormes d’électricité. » Il est donc important de développer des nouveaux modèles de langage plus petits, moins chers mais aussi plus économe en énergie, et donc plus durables et respectueux de l’environnement. De tels systèmes linguistiques alternatifs font l’objet de travaux dans diverses universités aux États-Unis, mais aussi à Genève, sous la direction de Paola Merlo.
« L’évaluation a démontré que les gros modèles de langage comme ChatGPT, par exemple, ne fonctionnent pas bien en matière d’induction, ce qui veut dire qu’ils peuvent difficilement abstraire ou généraliser, » dit la chercheuse. ChatGPT construit ses textes en analysant chaque mot de manière probabiliste. Il se base sur un grand volume de données et une énorme puissance de calcul. En ce sens, ChatGPT est certes très puissant, mais il n’est que modérément « intelligent ». Le système peut traiter des quantités énormes de données et écrire des nouveaux textes, mais il ne peut que difficilement dériver des règles de grammaire qui viennent des modèles. C’est exactement ce que font les gens, par exemple lorsqu’ils apprennent une nouvelle langue: ils connectent des phrases d’exemples pour la formation de verbes à des règles de grammaire. Paola Merlo souhaite désormais enseigner cette capacité à des machines intelligentes. « Nous essayons de parvenir, avec des bases de données relativement petites, à ce que le système langagier crée ses propres règles à partir d’exemples donnés, » explique la chercheuse.
Des règles grammaticales pour robot
C’est pourquoi la linguiste computationnelle alimente son programme avec des phrases d’exemples venant de différentes langues et qui ont des propriétés grammaticales variées au niveau des verbes – par exemple la causalité en anglais ou la congruence en français. Pour ce faire, la chercheuse a développé des tâches d’entraînement spécifiques inspirées des tests d’intelligence classiques. « Si nous parvenons à faire en sorte que le système dérive et apprenne des règles grammaticales à partir de modèles de texte, nous pourrons à l’avenir construire des modèles langagiers puissants, qui requerront beaucoup moins de données et de puissance de calcul, » continue Merlo, « car les règles sont bien plus compactes que des séries d’exemples infiniment longues, à partir desquelles ChatGPT, par exemple, génère ses textes – ce qui serait non seulement plus respectueux de l’environnement, mais aussi plus élégant. »
Paola Merlo travaille encore sur les bases de ces modèles de langages plus efficaces. À l’avenir, cependant, ces systèmes pourraient non seulement permettre une meilleure qualité et des applications moins coûteuses et plus durables, mais aussi permettre de le faire pour des langues minoritaires. En effet, ChatGPT est et a été principalement entraîné avec de données textuelles de langues majoritaires comme l’anglais, l’allemand, le français et l’espagnol. Le chatbot fonctionne donc particulièrement bien dans ces langues. C’est tout le contraire pour des langues minoritaires, pour lesquelles il y a moins de textes en ligne. « Des modèles plus petits et plus intelligents permettraient des applications qui marchent bien pour des communautés linguistiques plus restreintes, » déclare Paola Merlo. « Ils contribueraient alors à plus de justice technologique. »
La linguiste computationnelle Paola Merlo est convaincue que des modèles langagiers intelligents peuvent nous apporter de nombreux avantages. « Si les chatbots sont intelligents, sûrs et fiables, ils pourraient par exemple nous servir d’assistants personnels à l’avenir, » dit la chercheuse. « Je serais certainement heureuse si quelqu’un organisait pour moi les vols et les hôtels pour un voyage – les agences de voyages qui le font pour vous n’existent pratiquement plus. »