Potent, aber nur mässig intelligent
Wie schlau ist ChatGPT wirklich? Martin Volk, Forscher des NCCR Evolving Language, testet den Chatbot und entwickelt eigene intelligente Sprachmodelle, die effizienter, umweltfreundlicher und gerechter sind.
von Roger Nickl.
© Pixabay
Seit ChatGPT im Oktober letzten Jahres von der amerikanischen Firma Open AI lanciert wurde, dominiert der Chatbot die medialen Schlagzeilen. Und er wird von Millionen von Menschen weltweit genutzt. Der auf KI basierende Chatbot hat erstaunliche Fähigkeiten: Er simuliert menschliche Intelligenz und kann Texte, aber auch Software-Programme schreiben, Artikel zusammenfassen und komplexe Sachverhalte vereinfacht darstellen. Schüler:innen nutzen ChatGPT als Hausaufgabenhilfe, Studierende lernen damit und auch in der Forschung hat das Sprachmodell Einzug gehalten. Die Möglichkeiten des KI-betriebenen Sprachsystems scheinen schier grenzenlos zu sein. Doch wie schlau ist ChatGPT wirklich? Und kann er uns Menschen, wenn es um das Schreiben und Recherchieren geht, bereits das Wasser reichen?
Eine Lücke zwischen Menschen und Robotern
Martin Volk beschäftigt sich in einer aktuellen Studie mit der Frage, inwiefern sich von ChatGPT und von Menschen geschriebene Texte unterscheiden. Dazu hat der Computerlinguist, der an der Universität Zürich und am NCCR Evolving Language forscht, dem KI-unterstützten Sprachprogramm spezifische Aufgaben gestellt. Zusammen mit seiner Doktorandin Anastassia Shaitarova hat er ChatGPT den Titel und den ersten Absatz einer Reihe von journalistischen Artikeln präsentiert. Dies mit der Aufforderung, die nächsten 500 Worte des Textes auf Deutsch und Englisch zu schreiben. Danach haben die beiden Forscher die Texte von Mensch und Maschine verglichen.
«Unsere Hypothese war, dass Menschen, in diesem Fall waren es professionelle Journalisten, kohärentere Texte produzieren und daher mehr Diskurspartikel verwenden als ein vortrainiertes Sprachmodell wie ChatGPT», sagt Martin Volk. Entsprechend konzentrierten sich die Forscher bei ihrer Analyse spezifisch auf die Verwendung von Verbindungspartikeln wie beispielsweise «obwohl», «damit» oder «trotzdem» in den Texten. Dabei bestätigte sich die Annahme der Wissenschaftler: In den journalistischen Artikeln wurden gut zehn Prozent mehr Verbindungspartikel verwendet als in den Computer generierten. «Das heisst, obwohl die Texte von ChatGPT sehr flüssig daherkommen, unterscheiden sie sich noch deutlich von menschgemachten», sagt Martin Volk. Doch die Lücke sei sich allmählich am Schliessen.
Ständige Optimierung
Gemäss letzten Ergebnissen der Studie sind es nur noch wenige Prozente Differenz, während die Forschenden noch vor zweieinhalb Monaten einen klaren Unterschied feststellen konnten. «In Kürze wird es nicht mehr möglich sein, Texte, die von ChatGPT generiert und solche, die von Menschen geschrieben wurden, auseinanderzuhalten», sagt Volk, «das gilt für die meisten Alltagstexte, für die es viele Vorlagen gibt – etwa Empfehlungs- und Bewerbungsschreiben, aber auch für wissenschaftliche Artikel, die es online millionenfach gibt.» Da kann das System wunderbar lernen und sich verbessern.
Denn die Fähigkeiten von ChatGPT werden laufend optimiert. Einerseits kann sich das Sprachmodell dank künstlicher Intelligenz bis zu einem gewissen Grad selbst verbessern und aus «Erfahrung» lernen (etwa aus dem Frageverhalten der Nutzer:innen); anderseits wird das System auch laufend mit einer grossen Portion menschlicher Intelligenz gefüttert, um seine Leistung zu verbessern. Denn ChatGPT mag sich bis zu einem gewissen Grad smart verhalten, seine grosse Fähigkeit besteht vor allem darin, menschliche Intelligenz nachzuahmen. So trainieren die Entwickler:innen das Sprachmodell etwa besonders intensiv in den Bereichen, in denen der Chatbot den menschlichen Texten hinterherhinkt – wie beispielsweise bei der Textkohärenz. Dasselbe gilt auch für allgemeine und häufig gestellte Fragen, etwa: «ChatGPT, hast du Bewusstsein?» Oder: «Bist du intelligent?» «Jeder, der einen Chatbot entwickelt, wird sich zuerst einmal darum kümmern, dass diese Fragen ordentlich beantwortet werden», sagt Computerlinguist Volk.
Eine Nische finden
Um die Möglichkeiten und Grenzen des Sprachsystems auszuloten und den korrigierenden Einfluss der Entwickler:innen zu minimieren, hat sich Martin Volk deshalb mit einem Nischen-Themen beschäftigt, das kaum nachgefragt wird und entsprechend auch nicht auf dem Radar der Betreiber:innen von ChatGPT ist. «Wir wollten wissen, wie das System mit Texten aus dem 16. Jahrhundert umgehen kann», sagt der Forscher, «konkret mit Briefen des Zürcher Reformators Heinrich Bullinger, die auf Lateinisch und dem Deutsch der frühen Neuzeit verfasst wurden.» Die Forscher konnten davon ausgehen, dass Open AI in diesem Bereich nicht gezielt optimiert hat.
Die Resultate dieser Analyse erstaunten die Wissenschaftler:innen: ChatGPT übersetzte lateinische Texte besser auf Deutsch und Englisch als Google Translate, das System erkannte die Eigennamen in den lateinischen Briefen automatisch, verlinkte diese mit Wikipedia und es liessen sich damit sogar verloren gegangene Briefe aus dem umfangreichen Briefwechsel Bullingers ansatzweise rekonstruieren. Deshalb könnten KI-betriebene Sprachmodelle künftig auch für die historische Forschung interessant sein, sagt Volk, denn damit liessen sich fehlende Brieftexte in grossem Stil erarbeiten, was bislang nur in mühsamer gedanklicher Kleinstarbeit möglich ist. Bei einem grossen Briefwechsel wie im Fall von Heinrich Bullinger, wo mutmasslich mehrere Tausend Briefe verloren gegangen sind, könnte dies hilfreich sein.
Die Tests, die Martin Volk in seiner Forschung macht, geben ihm auch Hinweise dafür, wie KI-basierte Sprachsysteme künftig weiterentwickelt und verbessert werden könnten. Denn der Computerlinguist analysiert nicht nur bestehende Anwendungen wie etwa ChatGPT, sondern er entwickelt selbst auch eigene Systeme. Auf einem solchen System basiert etwa der Online-Übersetzungsdienst TextShuttle, den seine gleichnamige Startup-Firma kommerziell anbietet. «Künftig wird es für uns bei der Entwicklung von neuen Sprachmodellen auch darum gehen, interessante Nischen zu finden die gesellschaftlich relevant, aber wenig interessant für grosse Player wie beispielsweise Open AI oder Google sind», sagt der Wissenschaftler – etwa eben Anwendungen für historische Sprachen, für kleine Sprachen oder für Gebärdensprachen.
Ein Bedarf an nachhaltigeren Modellen
An innovativen KI-basierten Sprachmodellen arbeitet auch die Computerlinguistin Paola Merlo. «Um ChatGPT zu entwickeln, brauchte es riesige Datenmengen, da wurden Milliarden von Parametern trainiert», sagt die Wissenschaftlerin, die an der Universität Genf und am NCCR Evolving Language forscht, «das ist unglaublich teuer und verbraucht enorm viel Strom.» Deshalb sei es wichtig, neue Sprachmodelle zu entwickeln, die kleiner, günstiger, aber auch energieeffizienter und deshalb nachhaltiger und umweltverträglicher sind. An verschiedenen Universitäten in den USA wird an solchen alternativen Sprachsystemen gearbeitet, aber auch in Genf unter der Leitung von Paola Merlo.
«Die Evaluation hat gezeigt, dass grosse Sprachmodelle wie ChatGPT beispielsweise punkto Induktion nicht sehr gut funktionieren, das heisst sie können kaum abstrahieren oder generalisieren», sagt die Forscherin. ChatGPT generiert seine Texte, indem das System Wort für Wort probabilistisch errechnet. Basis dafür ist Big Data und eine enorme Rechenpower. ChatGPT ist so gesehen zwar sehr potent, aber nur mässig «intelligent». Das System kann zwar riesige Datenmengen verarbeiten und auf dieser Basis neue Texte schreiben – es kann aber aus den Vorlagen kaum übergeordnete Regeln ableiten. Genau dies tun Menschen, beispielsweise wenn sie eine Sprache lernen – sie verbinden dann etwa Beispielsätze zur Bildung von Verben mit grammatischen Regeln. Diese Fähigkeit möchte Paola Merlo nun auch den smarten Maschinen beibringen. «Wir versuchen, mit relativ kleinen Datensätzen zu erreichen, dass das Sprachsystem von sich aus aus Beispielen Regeln lernt», sagt die Forscherin.
Grammatikregeln für Roboter
Deshalb füttert die Computerlinguistin ihr Programm mit Beispielsätzen aus unterschiedlichen Sprachen und zu verschiedenen grammatischen Eigenschaften rund um das Thema «Verb» – etwa zur Kausalität im Englischen oder zur Kongruenz im Französischen. Dazu hat die Forscherin spezifische Trainingsaufgaben entwickelt, die von klassischen Intelligenztests inspiriert sind. «Wenn wir es schaffen, dass das System aus Textvorlagen grammatische Regeln ableiten und lernen kann, können wir künftig leistungsfähige Sprachmodelle bauen, die viel weniger Daten und Rechenleistung brauchen», sagt Merlo, «denn Regeln sind viel kompakter als eine unendliche lange Reihe von Beispielen, aus denen etwa ChatGPT seine Texte generiert – das wäre nicht nur umweltfreundlicher, sondern auch eleganter.»
Noch arbeitet Paolo Merlo an den Grundlagen solcher effizienteren Sprachmodelle. Künftig könnten solche Systeme aber nicht nur qualitativ bessere, kostengünstigere und nachhaltigere Anwendungen ermöglichen, sondern auch solche für kleinere Sprachen. Denn ChatGPT wird und wurde vor allem mit Textdaten grosser Sprachen wie etwa Englisch, Deutsch, Französisch oder Spanisch trainiert. Deshalb funktioniert der Chatbot in diesen Sprachen besonders gut. Ganz im Gegenteil zu kleineren Sprachen, für die es weniger Texte online gibt. «Kleinere und intelligentere Modelle könnten auch gut funktionierende Anwendungen für kleinere Sprachgemeinschaften ermöglichen», sagt Paola Merlo, «sie wären damit auch ein Beitrag zu mehr technologischer Gerechtigkeit.»
Computerlinguistin Paola Merlo ist davon überzeugt, dass smart Sprachmodelle uns allen viele Vorteile bringen können. «Wenn Chatbots smart, sicher und vertrauenswürdig sind, könnten sie uns in Zukunft beispielsweise als persönliche Assistenten dienen», sagt die Forscherin, «ich wäre jedenfalls froh, wenn mir jemand für eine Reise Flüge und Hotels organisieren würde – Reiseagenturen, die das für einen übernehmen, gibt es heute ja kaum noch.»