Un modèle informatique inspiré du cerveau qui comprend la parole comme les humains
“Tu peux répéter?” – Tant pour les humains que pour les machines, la compréhension de la parole est un véritable défi. Qui n’a jamais dû s’arrêter sur une phrase car son locuteur a parlé trop vite ou sans articuler? Si nous pouvons nous aider d’indices contextuels, les ordinateurs n’ont pas encore cette capacité. Partant de ce constat, une équipe de neuroscientifiques travaillant à l’Université de Genève au sein du Pôle de Recherche National (PRN) “Evolving Language”, a développé – avec une collaboratrice de l’Université de Cambridge – un modèle informatique basé sur le cerveau humain pour deviner avec précision le sens de phrases ambiguës. Le modèle conçu pourrait être utile à la fois dans le domaine des neurosciences, en donnant des indications importantes sur la manière dont le cerveau humain comprend la parole, et dans celui de l’intelligence artificielle, en améliorant encore les modèles de langage tels que ChatGPT.
Le langage humain est complexe. Nous n’écrivons pas seulement, nous parlons aussi. Nous ne faisons pas que lire, nous entendons. Aujourd’hui, les modèles de langage artificiels les plus performants – par exemple ChatGPT – sont basés sur le texte écrit et ne prennent pas en compte l’oralité de la langue. Résultat : ils ne sont pas très performants pour comprendre un discours parlé, par exemple.
Dans une étude qui vient d’être publiée dans PloS Biology, des chercheuses de l’Université de Genève ont réussi à concevoir un modèle informatique de traitement de la parole basé sur les mécanismes du cerveau humain ; une étape importante pour l’amélioration des modèles de langage tels que ChatGPT et la compréhension du cerveau lui-même.
“La compréhension de la parole est difficile parce que le signal acoustique est temporaire et que le système doit traiter rapidement toutes les informations. Aujourd’hui, la plupart des modèles de traitement de la parole traduisent la parole en texte sans en comprendre le sens, ou reconnaissent le sens du texte après une longue analyse acoustique, ce qui interdit la compréhension en temps réel”, explique Yaqing Su, chercheuse postdoctorale au sein l’équipe du professeur Anne-Lise Giraud, à l’Université de Genève, et première auteure de l’étude.
En effet, jusqu’à aujourd’hui, les modèles se sont largement concentrés sur la prédiction du mot suivant (méthode dite “horizontale”) en tant que mécanisme central du traitement du langage par l’homme et la machine. “Notre approche, en revanche, utilise des prédictions de haut en bas (méthode dite “hiérarchiques”), par exemple du sens au mot et du mot aux syllabes, ce qui est plus vraisemblablement utilisé par notre cerveau”, ajoute Yaqing Su.
En tant que neuroscientifiques, leur objectif principal est d’identifier les principes informatiques plausibles qui permettent au cerveau de comprendre la parole en temps réel. Cela permettra de combler le manque de connaissances du cerveau humain, ainsi que d’identifier les mécanismes possibles à l’origine de diverses déficiences liées à la parole.
“Les performances spectaculaires des grands modèles de langage donnent l’impression qu’ils comprennent d’une certaine manière. Cependant, ils ne comprennent pas comme les humains. Nous comprenons en associant ce que nous entendons ou lisons à des images mentales, ce qui fait défaut aux modèles de langage actuels de l’IA. Cela suggère que les humains et les grands modèles de langage utilisent des principes informatiques différents”, ajoute Itsaso Olasagasti, l’une des auteures de l’étude.
Un modèle capable d’analyser de contexte en direct de manière humaine
Si vous entendez la phrase “l’ancre coule” sans contexte, vous pourriez facilement la confondre avec “l’encre coule”*. Sans plus d’informations, vous déduirez sûrement que le mot [a/encre] se rapporte à la signification la plus courante : le liquide noire utilisé pour écrire. Cependant, s’il est précisé ensuite que l’ancre coule “au fond de la mer“, vous n’aurez pas de difficulté à adapter rapidement et rétrospectivement votre compréhension du mot.
“Même si des modèles de traitement de parole artificiels récents comme la famille GPT ont montré des performances incroyables pour générer du contenu humanisé, réussissant à faire croire qu’ils ont atteint une intelligence quasi-humaine, ces modèles éprouvent en réalité des difficultés avec la déduction de contexte, parce qu’ils ne fonctionnent pas comme un cerveau humain”, explique Su. “Les modèles actuels, comme la prédiction du mot suivant de GPT-2, ne peuvent pas déduire de signification correcte sans davantage de composants.”
Pour remédier à ce manque de modèles d’interprétation de parole à la fois juste et rapide, les auteures de l’étude ont développé un modèle informatique capable d’extraire de l’information sur plusieurs niveaux dans un discours continu. Tout d’abord, le modèle prédit plusieurs contextes généraux et rôles sémantiques (signification du mot) pour le discours perçu, en se basant sur ses connaissances. Dans notre exemple, il attribuera au mot [a/encre] les contextes possibles [partie de bateau] et [liquide coloré]. Ensuite, le modèle convertira ces possibilités (ou prédictions) en formes linguistiques simples, qui seront ensuite traduites en syllabes et en motifs sonores. Si le modèle rencontre par la suite un son qui correspond au motif sonore prédit, il pourra rapidement déduire la signification du mot ambigu à l’oral [a/encre] en fonction du contexte.
*Note de traduction : la phrase utilisée en anglais dans l’étude est “one more ace wins the game”
Dans le cerveau humain
Ce modèle pourrait être une bonne représentation de ce qu’il se passe quand le cerveau essaie de comprendre un discours. En effet, en plus de connaissances linguistiques (lexicales et grammaticales), il utilise des connaissances non-linguistiques (sémantiques et contextuelles), cruciales à la compréhension humaine du langage car elles permettent de clarifier le sens d’un mot avec plusieurs significations. Les auteures estiment que l’utilisation de cette culture générale pourrait être importante aussi dans les modèles langagiers informatiques, les rendant plus “humain”. “Nous espérons donner une vision plus holistique des capacités et limitations de modèles langagiers artificiels comme ChatGPT, une amélioration de GPT-2 que nous avons utilisé dans notre étude, mais avec le même mécanisme fondamental”, explique Anne-Lise Giraud, professeur à l’Université de Genève et directrice de l’Institut de l’Audition, Centre de l’Institut Pasteur à Paris.
Grâce à des expériences de magnétoencéphalographie – un scanner qui mesure l’activité cérébrale en temps réel – menées à l’Université de Cambridge par Lucy McGregor, les chercheuses ont pu voir que leur modèle, basé sur des prédictions hiérarchiques, correspondait à des signaux cérébraux associés à des ambiguité et clarification de mots, ce qui n’est pas le cas de de GPT-2.
Ce modèle peut aussi être utile pour étudier les mécanismes sous-jacents de maladies caractérisées par un trouble de l’analyse du sens, comme l’autisme ou les hallucinations. Ces maladies ont une focalisation anormale (respectivement haute et basse) sur les signaux sonores, en comparaison avec les prédictions, ce qui mène à une interprétation incorrecte du contexte dans le discours.
“Il y a encore beaucoup de choses qu’on ignore sur notre cerveau, et les scientifiques essaient d’éclaircir ces mystères de manière responsable et soigneuse”, raconte Su. “Nous pensons que cette étude peut donner aux neuroscientifiques et aux linguistes un point de vue intéressant pour la construction d’une théorie sur le traitement humain du langage. En conclusion, nos résultats ont de l’importance pour l’étude du cerveau humain, mais aussi pour la construction de modèles de langage artificiels mieux (et pas forcément plus gros).”
Référence
A deep hierarchy of predictions enables online meaning extraction in a computational model of human speech comprehension, Su Y, MacGregor LJ, Olasagasti I, Giraud AL (2023) A deep hierarchy of predictions enables online meaning extraction in a computational model of human speech comprehension. PLOS Biology 21(3): e3002046. https://doi.org/10.1371/journal.pbio.3002046
Contacts médiatiques :
(FR) Pre. Anne-Lise Giraud – Université de Genève, Suisse ; Institut de l’Audition, Centre de l’Institut Pasteur, Paris, France
Contact: Email
Si urgent via Emilie Wyss +4122 3795592
(ENG) Dre. Yaqing Su – Université de Genève, Département de Neurosciences Fondamentales.
Contact: +41 767885446 ; Email
(ENG) Dre. Miren Itsaso Olasagasti – Université de Genève, Département de Neurosciences Fondamentales.
Contact: +41 223790848 ; Email