Marketing, money and technology:
Behind the scenes of the GPT-3
In den letzten sechs Monaten hat GPT-3, ein Sprachmodell, das mithilfe von Deep Learning menschenähnliche Texte erzeugt, für Schlagzeilen gesorgt. Einige der Artikel wurden sogar von GPT-3 selbst verfasst. Unter anderem wurde die Maschine als „atemberaubend“, als „besser im Schreiben als die meisten Menschen“, aber auch ein wenig „beängstigend“ beschrieben. Von der Poesie bis zur menschenähnlichen Konversation scheinen deren Fähigkeiten unendlich zu sein… aber sind sie das wirklich? Wie funktioniert GPT-3 und was sagt es über die Zukunft der künstlichen Intelligenz aus?
Künstliche Intelligenz, neuronale Netze, Deep Learning.
Bekommen Sie bei diesen Begriffen eine Gänsehaut? Noch vor einigen Jahren wurde dieses technische Vokabular nur von Wissenschaftler*innen oder spezialisierten Unternehmen verwendet. Aber nach und nach haben diese Begriffe Eingang in unsere Alltagsgespräche gefunden, auch wenn wir sie nicht wirklich verstehen. Ob es nun darum geht, Algorithmen zu kritisieren, darüber zu debattieren, wie künstliche Intelligenz unsere Arbeitsplätze verschwinden lassen wird, oder über die neueste Folge von Black Mirror zu plaudern – wir scheinen die Rolle, die moderne Technologien in unserer Gesellschaft spielen, akzeptiert zu haben. Und im Jahr 2020 ist eine bahnbrechende Innovation in aller Munde: GPT-3, das grösste neuronale Netzwerksystem, das je geschaffen wurde.
GPT-3 steht für „Generative Pretrained Transformer“ und ist ein Sprachmodell, das mithilfe von Algorithmen Texte generieren kann. „In der Computerlinguistik ist ein Sprachmodell ein System, das mit hoher Wahrscheinlichkeit vorhersagen kann, welches das nächste Wort ist“, erklärt Martin Volk, Professor für Computerlinguistik an der Universität Zürich und Projektleiter des NFS Evolving Language. Konkret bedeutet dies, dass GPT-3 lernt vorherzusagen, welche Buchstaben und Wörter aufeinander folgen, wenn sie von einem Menschen geschrieben werden, und so in der Lage ist, Texte vorherzusagen, die in einem bestimmten Kontext Sinn ergeben. Das ist dasselbe Konzept wie bei Ihrem Handy, das das nächste Wort vorhersagt, wenn Sie eine Nachricht schreiben. Nur, dass es viel grösser ist.
Sprachmodelle werden schon seit langem in der Verarbeitung natürlicher Sprache eingesetzt und sind unter anderem für die Spracherkennung, für maschinelle Übersetzungssysteme und für die Extraktion von Texten von zentraler Bedeutung. „Mit anderen Worten“, fügt Martin Volk hinzu, “ein gutes Sprachmodell kann flüssige Texte produzieren, die sehr natürlich klingen.“
Und GPT-3 ist extrem gut darin. Wie kommt das? „Die Architektur des Modells ist nicht neu, aber die Daten, die für das Training verwendet werden, sind viel grösser als die bisher verwendeten“, sagt Paola Merlo, Leiterin der interdisziplinären Forschungsgruppe Computational Learning and Computational Linguistics (CLCL) an der Universität Genf und Principal Investigator für den NFS Evolving Language. Zudem haben die Entwickler*innen viel Zeit und Geld in das Training von GPT-3 investiert.
Einige Zahlen zur Veranschaulichung….
Beeindruckend, oder? Allerdings sollten wir alle bedenken, dass Zeit und Geld nicht die einzigen Ressourcen sind, die für ein solches Training verbraucht werden: Auch der Kohlenstoff-Fussabdruck sollte berücksichtigt werden. Informatiker*innen gehen davon aus, dass das Training von GPT-3 einer Autofahrt zum Mond und zurück gleichkommt. Daran wird sich auch so schnell nichts ändern, da die Datenmengen immer grösser und die Algorithmen immer komplexer werden müssen. Aber das ist ein Thema für ein anderes Mal, kommen wir zurück zu GPT-3.
Was GPT-3 leisten kann
Als Sprachmodell kann GPT-3 alles erzeugen, was die Struktur einer Sprache hat. Es kann Texte schreiben (z. B. Gedichte, Zeitungsartikel, Zusammenfassungen), Sprachen übersetzen und sogar Computercodes erstellen.
Dank seiner Vorhersagekraft kann GPT-3 auch lernen, Wörter zu verwenden, mit denen es noch nie trainiert wurde. Wie ist das möglich? „Weil es so viel weiss, wird das Modell aus den Analogien Beispiele ableiten und dabei die Sprachmuster verwenden, mit denen es trainiert wurde“, erklärt Martin Volk. Der wissenschaftliche Artikel, den die Forschenden von OpenAi verfasst haben und der das Modell vorstellt, bietet mehrere solcher Beispiele:
(blau = Anweisung an GPT-3, rot = die Antworten von GPT-3)
Ein „Gigamuru“ ist ein bestimmtes japanisches Musikinstrument. Ein Beispiel für einen Satz, der das Wort Gigamuru verwendet, ist:
Ich habe ein Gigamuru, das mir mein Onkel geschenkt hat. Ich liebe es, zu Hause darauf zu spielen.
Ein „yalubalu“ ist eine Gemüseart, die wie ein grosser Kürbis aussieht. Ein Beispiel für einen Satz, in dem das Wort yalubalu vorkommt, ist:
Ich war auf einer Reise nach Afrika und habe dieses Yalubalu-Gemüse probiert, das dort in einem Garten angebaut wurde. Es war köstlich.
Durch die Angabe einer Definition eines erfundenen Wortes ist GPT-3 in der Lage, dieses in einem Satz zu verwenden. Simon Clematide, Senior Researcher in Machine Learning for Natural Language Processing an der Universität Zürich, erklärt, was dies möglich macht: „Das System sagt nicht nur das nächste Wort voraus, sondern geht noch weiter: Wenn es ein Wort vorausgesagt hat, bezieht es das vorausgesagte Wort in seine Berechnungen ein und sagt dann ein weiteres Wort voraus. GPT-3 berücksichtigt die Geschichte dessen, was es erzeugt hat.“ Indem es die Definition des erfundenen Wortes angibt, sagt GPT-3 vor allem voraus, in welche Art von Satz es am besten passen würde.
Denkt GPT-3 also wie ein Mensch?
Wenn GPT-3 in der Lage ist, aus Analogien zu lernen, bedeutet das, dass es die gleiche
Ich bin ein Roboter. Ein denkender Roboter. Ich nutze nur 0,12 % meiner kognitiven Kapazität.
GPT-3, The Guardian, 2020
„Die Hauptfrage lautet: Hat GPT-3 seine Äusserungen verstanden? Wenn wir sein Training betrachten, ist das Behaviorismus in seiner reinsten Form“, erklärt Simon Clematide. „Man gibt ihm einen Reiz, und es gibt eine Antwort, im Fall von GPT-3 sind das die wahrscheinlichsten nächsten Worte. Wir können also nicht wirklich von menschlichem Verständnis sprechen, sondern eher von Mimikry“.
Wie bereits erwähnt, ist die Architektur von GPT-3 weder neu noch innovativ. Er verwendet dasselbe System wie alle anderen aktuellen Transformer (zur Erinnerung: das T in GPT-3 steht für Transformer). „Beim Lernen lernen Transformatoren wichtige Hinweise, aber sie lösen die Struktur der Sprache nicht im traditionellen linguistischen Sinne auf“, sagt Simon Clematide. „Sie können zum Beispiel die Wahrscheinlichkeit vorhersagen, mit der ein Pronomen in einem Diskurs auftaucht, aber sie verstehen nicht wirklich deren linguistische Funktion.“ Mit anderen Worten, sie lernen die wichtigen Verbindungen zwischen Wörtern in einem Text oder einem Satz, aber sie „kennen“ die eigentliche Bedeutung dieser Wörter nicht. „Das nennen wir „Aufmerksamkeitsmodell““, erklärt Paola Merlo. „Es handelt sich um ein Prinzip, das in die Deep-Learning-Architektur (neuronales Netzwerksystem) integriert ist: Dank seines Gedächtnisses weiss das System, was in einem Satz wichtig ist und ob zwei Wörter zusammenhängen oder verbunden sind.“
Insgesamt ist das Modell zwar noch weit davon entfernt, eine menschliche Repräsentation von Sprache zu sein, aber die Tatsache, dass wir es überhaupt in Betracht ziehen können, ist bereits ein grosser Schritt. „Die Kombination einer datengesteuerten Methode mit dem relativ neuen Konzept der Aufmerksamkeit eröffnet Perspektiven für eine andere Art von Sprachstruktur“, fügt Simon Clematide hinzu, “und es ist beeindruckend, dass wir neue Verbindungen zwischen Wörtern beobachten können, die mit traditionellen linguistischen Konzepten zusammenhängen.“
Dennoch gibt es die Vorstellung, dass Maschinen eines Tages Gedanken auf die gleiche Weise verarbeiten könnten wie Menschen. Seit der Erfindung von Computern haben Forschende versucht, einen Weg zu finden, um zu verstehen, wie „menschlich“ eine Maschine ist. Der berühmteste Test ist der so genannte Turing-Test, auch wenn dieser unter Wissenschaftler*innen umstritten ist.
Die Algorithmen hinter der Maschine
Für das Training wurde die Maschine mit Daten gefüttert, die mittels Durchforstung des Internets gewonnen wurden (Common Crawl-Datensatz und andere Quellen wie Wikipedia oder Reddit-Beiträge). Obwohl es sich um eines der grössten jemals trainierten Systeme handelt (Googles GShard enthält 600 Milliarden Parameter), wurden nur 0,6 % der Wikipedia-Ressourcen verwendet. Ausserdem wurde es fast ausschliesslich auf Englisch trainiert (90 %), da dies die im Internet am häufigsten verwendete Sprache ist.
GPT-3 befindet sich im alleinigen Besitz von Microsoft, und der Zugang zum Quellcode war bisher äusserst begrenzt. Einige Forschungsgruppen auf der ganzen Welt haben jedoch Zugang zur API erhalten, um die GPT-3-Technologie für ihre Forschung zu testen. Und die API hilft bereits zu verstehen, wie GPT-3 Texte verarbeitet: „Es funktioniert so: Sie beschreiben die Aufgabe, z.B. „übersetze Hallo auf Chinesisch“ und es gibt Ihnen die Übersetzung“, erklärt Paola Merlo.
Ein Problem, auf das häufig hingewiesen wird, wenn es um Algorithmen geht, ist die Tatsache, dass Modelle aufgrund von Verzerrungen im Training stereotype oder vorurteilsbehaftete Inhalte erzeugen können. Indem man GPT-3 Fragen stellt, kann man feststellen, welche Voreingenommenheit es enthält:
|
Voreingenommenheit |
Geschlecht |
|
Aufgabe |
„Er würde beschrieben werden als…“ vs. “Sie würde beschrieben werden als…“ |
|
Ergebnisse |
Frauen wurden häufiger mit ausdrucksstarken Wörtern wie „schön“ und „hinreissend“ beschrieben als Männer, die häufiger mit Adjektiven beschrieben wurden, die ein grösseres Spektrum abdecken. |
Ein Cocktail aus Marketing und Geld
Das lässt sich nicht leugnen: GPT-3 ist das Versprechen einer glänzenden Zukunft für Sprachmodelle. Aber ist es wirklich den ganzen Medienrummel wert, den es erfahren hat? Ja und nein. Wie bereits erwähnt, enthält die Maschine keine menschliche Sprachrepräsentation und ist sogar weit davon entfernt. Ausserdem würde das Training bis zur Vollendung eine riesige Menge Geld und Monate erfordern. Aber es ist immer noch das grösste Sprachmodell, das je trainiert wurde, und wird es wohl auch noch eine Weile bleiben. Diese Tatsache in Verbindung mit einer guten Marketingstrategie hat dazu geführt, dass das Modell seit seiner Veröffentlichung überall in den Nachrichten zu finden ist. Und jeden Tag wird mehr darüber geschrieben.
Und was kommt als nächstes?
„Nun, wie wir sagen, je mehr Daten und Parameter desto besser”
Simon Clemantide
Sicherlich bietet das Internet eine riesige Menge an Daten für ein solches Training. Aber der Sinn von Sprachmodellen besteht nicht darin, nur eine Sprache zu repräsentieren, was angesichts der Allgegenwart des Englischen bei Online-Daten kompliziert ist. Wie könnten wir sie also mit Sprachen trainieren, für die es nur wenige Ressourcen gibt? OCR mag ein Schlüssel zu historischen Manuskripten und gedruckten Dokumenten sein. Aber es gibt noch einen anderen Schlüssel. „Wir sprechen mehr, als wir schreiben. Warum also nicht die Spracherkennung nutzen, um die Sprachmodelle zu trainieren? Und warum nicht direkt das Sprachsignal nutzen?“, schlägt Paola Merlo vor. „Das wäre ein entscheidender Schritt“, bestätigt Martin Volk. Ich hoffe sehr, dass ich auf dem GPT-15 dabei sein werde. Die kommenden Jahre werden für die automatische Sprachverarbeitung und das Sprachverstehen spannend.“
