Derrière l’optimisation du langage humain: quel est le cycle de vie des mots avec des consonnes identiques ?
Y a-t-il une raison derrière la structure des mots que nous utilisons ? L’une des particularités observées dans toutes les langues, et qui ne peut être expliquée par le hasard, est la relative rareté des mots contenant des consonnes identiques (c’est-à-dire deux consonnes adjacentes séparées par une voyelle, comme “dodeliner”, “beber” ou “cookie”). Le linguiste Chundra Cathcart, de l’Université de Zurich et du PRN Evolving Language a étudié une nouvelle hypothèse qui pourrait expliquer ce curieux phénomène.
Pour faciliter une communication efficace, les mots dans les langues parlées doivent être faciles à prononcer pour les locuteurs et faciles à traiter et à comprendre pour les auditeurs. Cependant, certains types de sons présents dans les mots posent des problèmes aux locuteurs et aux auditeurs. Par exemple, les mots contenant des paires de consonnes identiques séparées par une voyelle sont difficiles à prononcer et à traiter. Des analyses ont montré que ces structures sont sous-représentées dans les langues du monde : bien que de nombreuses langues admettent de tels mots (par exemple, le français “dodeliner”, l’espagnol “beber” (boire) ou l’anglais “cookie”), ils sont beaucoup moins fréquents que ce que l’on pourrait attendre par hasard.
Jusqu’à présent, on ne savait pas grand-chose des forces évolutives spécifiquement responsables de cette optimisation, qui conduisent à une sous-représentation des consonnes identiques dans le langage. Grâce à l’analyse phylogénétique des bases de données étymologiques, des chercheurs de l’université de Zurich ont pu déterminer les mécanismes sous-jacents à ce phénomène dans un article récemment publié.
Vie et mort des consonnes identiques
Il est clair qu’il y a statistiquement moins de mots contenant des consonnes identiques (CI) qu’il ne devrait y en avoir si l’on ne tenait compte que du hasard. Quel pourrait donc être le mécanisme à l’origine de ce phénomène ? Dans le passé, les chercheurs ont avancé trois mécanismes potentiels pour expliquer cette sous-représentation : (1) les mots contenant des CI sont moins susceptibles d’apparaître (“un taux de naissance plus faible”) ; (2) les mots contenant des CI ont plus souvent tendance à changer de forme et à perdre cette structure (“un taux de mutation plus élevé”) ; et (3) les mots contenant des CI ont plus de chances de tomber en désuétude (“un taux de perte plus élevé”).
À partir d’un set de données de mots apparentés – c’est-à-dire de mots qui sont étymologiquement liés les uns aux autres, mais qui n’ont pas nécessairement le même sens, comme le latin “manducare” (mâcher), l’italien “mangiare” (manger) et le français “manger” – provenant de l’arbre généalogique de trois langues, les chercheurs de l’université de Zurich ont résolu l’évolution de mots apparentés. “Le modèle probabiliste utilisé dans l’article est capable de nous indiquer l’histoire la plus probable d’une forme de mot au fur et à mesure qu’elle évolue dans l’arbre généalogique vers ses descendants dans différentes langues, ce qui permet d’estimer les taux de naissance, de mutation et de perte“, explique Chundra Cathcart, chercheur principal à l’université de Zurich et premier auteur de l’étude. L’ensemble de données utilisé comprend une majorité de langues modernes, telles que le finnois, l’amharique ou le tagalog, mais aussi quelques langues éteintes comme l’akkadien et le tibétain classique.
D’après leurs résultats, le principal mécanisme qui semble expliquer la faible fréquence des mots avec des consonnes identiques dans les langues du monde est un taux de natalité nettement inférieur. “Cela signifie que les mots contenant des consonnes identiques ont moins de chances d’entrer dans l’usage des langues du monde que les mots qui n’en contiennent pas“, précise Cathcart. En ce qui concerne le taux de mutation et le taux de perte, contrairement aux croyances antérieures, les résultats sont plus modérés, voire contradictoires. “De manière cruciale, ces résultats contredisent l’idée communément admise selon laquelle les mots comportant des consonnes identiques sont plus susceptibles de disparaître que ceux qui en sont dépourvus“, explique-t-il. “Ici, nous ne trouvons aucune preuve de ce point de vue – une fois qu’ils existent, les mots avec des consonnes identiques ne sont pas plus susceptibles de disparaître que les mots qui n’en ont pas.“
Considérer la multiplicité des réponses
Désireux de nuancer leurs résultats, les chercheurs ont exploré un autre mécanisme possible pour expliquer la sous-représentation des consonnes identiques, en se concentrant cette fois sur les mots à signification basique. “Les sens basiques sont des éléments de vocabulaire considérés comme plus stables et plus fréquemment utilisés que d’autres, et que l’on retrouve dans la liste dite “Swadesh 100”“, explique Cathcart. Un exemple de sens basique serait “manger”, par opposition au sens non-basique “hameçon”. “Les forces de l’évolution semblent s’efforcer de maintenir les formes à consonnes identiques en dehors des vocabulaires de base des langues“, nous éclaire le chercheur.
Afin de mieux comprendre la concurrence lexicale et le remplacement des mots de base, les chercheurs ont utilisé une base de données composée de mots de base avec des traits à concepts apparentés, c’est-à-dire des formes de mots étymologiquement apparentées et ayant le même sens dans différentes langues. Par exemple, le français et l’italien partagent un trait de concept apparenté pour le mot “manger” (italien “mangiare“), mais pas le latin, qui utilise la forme non-apparentée “edere“. En comparaison, les traits apparentés indiquent qu’une forme étymologiquement apparentée se retrouve dans différentes langues, et cela indépendamment du sens. Par exemple, le latin “manducare” (mâcher) ferait partie de la même forme apparentée que le français “manger” et l’italien “mangiare” (manger).
En comparant des ensembles de données de 5 familles de langues, les chercheurs ont étudié les mêmes questions sur une échelle différente – Les formes de mots sans CI entrent-elles davantage dans le vocabulaire de base que les formes avec CI ? Les changements conduisant à des mots sans CI sont-ils plus fréquents dans le vocabulaire de base ? Les formes avec CI tombent-elles plus souvent en désuétude que les formes sans CI dans le vocabulaire de base ? Les résultats de leur analyse ont révélé des différences dans les rôles des mécanismes impliqués. En effet, dans une écrasante majorité de langues, les mots ayant des consonnes identiques semblent plus susceptibles de perdre leur statut de mot de base, ce qui signifie que l’hypothèse du “taux de perte plus élevé” est plus probable dans ce cas. Les autres hypothèses ne sont pas confirmées dans toutes les familles analysées. “Ces résultats nous encouragent à décomposer l’évolution linguistique en de multiples composantes“, souligne Cathcart.
Structures suboptimales et subversion des limites
Les résultats obtenus par Cathcart apportent une vision nuancée des différents processus responsables de l’optimisation des langues pour leurs utilisateurs, et soulignent les limites des théories traditionnelles. “Les sciences cognitives ont tendance à supposer que si une caractéristique de la langue est sous-optimale pour la communication, l’évolution de la langue dans son ensemble conspirera pour se débarrasser de cette caractéristique“, observe le chercheur. “Ici, nous montrons que bien qu’il y ait un goulot d’étranglement significatif en termes de création de mots contenant des consonnes identiques, au fur et à mesure que les mots évoluent, il n’y a pas toujours une forte pression pour se débarrasser des consonnes identiques (soit en se débarrassant des consonnes identiques dans un mot, soit en se débarrassant du mot)“.
Actuellement, les bases de données étymologiques numérisées ne sont pas toujours adaptées à ce type d’analyse informatique. L’étude ne couvre donc pas la totalité des langues du monde, ce qui limite son universalité. Selon Cathcart, cette situation pourrait changer dans les prochaines années avec le développement de nouveaux outils de traitement des données.
Une autre question reste en suspens : pourquoi exactement des consonnes identiques sont-elles sous-optimales pour les adultes humains, d’autant plus qu’elles sont au contraire très répandues dans la communication dirigée vers les enfants ? “Certaines expériences psycholinguistiques explorent déjà la difficulté de produire et de traiter des séquences de consonnes identiques, notamment les travaux de chercheurs du PRN Evolving Language qui suggèrent que la prononciation de cette forme est difficile en raison de la planification motrice“, explique Cathcart. Il ajoute qu’il collabore actuellement avec ce même groupe pour déterminer si la difficulté de prononciation de ces séquences varie selon les différents types de consonnes.