So funktioniert ein neuronales Netzwerk

Ein neuronales Netzwerk ist das Gehirn einer künstlichen Intelligenz. Es ist unserem Gehirn nachempfunden, aber unterliegt großen Einschränkungen. Neuronale Netzwerke fühlen nicht, kreieren nicht und im Grunde denken sie auch nicht. Ein neuronales Netzwerk kennt nur Zahlen. Das ist besonders interessant, wenn wir uns ChatGPT anschauen.

 

ChatGPT und sein neuronales Netzwerk

ChatGPT ist ein Chatbot. Das bedeutet, die KI gibt uns Worte auf unsere Anfragen heraus. Die Textgenerierung von ChatGPT basiert aber auf Zahlen, denn neuronale Netzwerke kennen keine Wörter und auch keine Zusammenhänge.

Wie funktioniert also das neuronale Netzwerk in ChatGPT? Fragen wir doch mal nach:

Wie funktioniert ein neuronales Netzwerk, das Texte ausgibt?

Ein neuronales Netzwerk, das Texte ausgibt, ist in der Regel ein sogenanntes Sprachgenerierungsmodell. Eines der bekanntesten Beispiele dafür ist das Transformative Sprachmodell GPT (Generative Pre-trained Transformer) wie GPT-2 und GPT-3. Hier erläutere ich die Funktionsweise von GPT als Beispiel, da es zu meinem Kenntnisstand im September 2021 das modernste und leistungsstärkste Modell war.

Die Funktionsweise eines solchen Modells lässt sich in folgende Schritte unterteilen:

  1. Architektur: GPT basiert auf einem neuronalen Netzwerk mit einer Architektur namens „Transformer“. Diese Architektur verwendet mehrere Schichten von sogenannten „Attention“-Mechanismen, um effizient Informationen aus langen Texten zu extrahieren und Zusammenhänge zu erfassen.
  2. Training: Das Modell wird auf einem riesigen Datensatz von Texten trainiert. Es handelt sich dabei meist um eine große Sammlung von Webseiten, Büchern, Artikeln, etc. Während des Trainings lernt das Modell die statistischen Beziehungen und Muster in der Sprache, um zukünftige Texte zu generieren.
  3. Eingabe: Um eine Textausgabe zu erhalten, wird dem trainierten Modell ein Anfangstext (oft als „Prompt“ bezeichnet) gegeben. Dieser Anfangstext kann ein einzelnes Wort, ein Satz oder sogar ein Absatz sein, je nachdem, welche Art von Textausgabe gewünscht wird.
  4. Tokenisierung: Bevor der Anfangstext dem Modell übergeben wird, wird er in kleinere Einheiten aufgeteilt, die als „Tokens“ bezeichnet werden. Ein Token kann beispielsweise ein einzelnes Wort oder ein Zeichen sein. Die Tokenisierung ermöglicht es dem Modell, den Text besser zu verarbeiten.
  5. Generierung: Nachdem der Anfangstext tokenisiert wurde, wird er in das Modell eingespeist. Das Modell verwendet seine vorherigen Erfahrungen aus dem Training, um den nächsten Token in der Sequenz vorherzusagen, der auf den gegebenen Tokens folgen sollte. Dieser vorhergesagte Token wird dann an die Eingabe angehängt, und der Prozess wird fortgesetzt, um sukzessive mehr Text zu generieren.
  6. Wiederholung: Schritt 5 wird wiederholt, bis die gewünschte Textlänge erreicht ist oder ein spezielles End-Token festgestellt wird, das die Textgenerierung beendet.

Es ist wichtig zu verstehen, dass Sprachgenerierungsmodelle wie GPT-3 ein statistisches Modell sind und keine wirkliche Sprachkompetenz oder Verständnis haben. Sie lernen lediglich, welche Wörter und Phrasen statistisch gesehen wahrscheinlich sind, basierend auf den Mustern, die sie während des Trainings gesehen haben. Obwohl sie beeindruckend realistische Texte erzeugen können, können sie auch ungenaue, unlogische oder unsinnige Ausgaben produzieren, insbesondere wenn sie unbeaufsichtigt oder ohne sorgfältige Kontrolle verwendet werden. Daher ist es wichtig, bei der Anwendung solcher Modelle vorsichtig zu sein und die Ausgabe kritisch zu hinterfragen.

Ein neuronales Netzwerk im Beispiel

Gut, das ist jetzt alles viel Fachsprache. Nehmen wir mal ein Beispiel:

Angenommen, wir wollen, dass ChatGPT uns eine Frage beantwortet:

Was ist grün und steht vor der Tür?

Jetzt schaltet sich das neuronale Netzwerk ein. Jedes Wort hat einen eigenen Zahlenwert. Sagen wir der Einfachheit halber mal, dass das folgendermaßen aussieht:

  • was – 1
  • ist – 2
  • grün – 3
  • und – 4
  • steht – 5
  • vor – 6
  • der – 7
  • tür – 8

Ein neuronales Netzwerk kennt nur die Zahlen, die den Wörtern zugeordnet sind. Aus der Anfrage erstellt das neuronale Netzwerk die Zahlenfolge 1 2 3 4 5 6 7 8. Diese Zahlenfolge durchläuft dann alle sogenannten „Units“ des neuronalen Netzwerks. Eine Unit ist ein einzelnes Neuron. Davon existieren unzählige im neuronalen Netzwerk.

Nachdem die Zahlenfolge alle Units durchlaufen hat, gibt ChatGPT basierend auf den Ergebnissen eine Antwort aus. Und zwar Wort für Wort. Das bedeutet, die Zahlenfolge läuft immer wieder durch das neuronale Netzwerk und gibt so lange einzelne Wörter aus, bis ein Endpunkt erreicht ist.

Wir können das auch sehr gut beobachten, wenn wir ChatGPT verwenden. Die Antwort kommt nicht auf einen Schlag, sondern Wort für Wort.

Jedes Wort, das die KI ausgibt, hat ebenfalls einen Zahlenwert. Das neuronale Netzwerk sucht also nach den antrainierten Zusammenhängen der Zahlenwerte im eigenen System. Anhand dieser Zahlenwerte ergibt sich die Antwort.

Die Antwort auf diese Frage lautet:

Ein Grashalm.

Die Zahlenwerte dafür könnten beispielsweise 9 und 10 sein.

Allerdings ist das alles natürlich viel komplexer und Zahlenwerte sind eher sowas wie 5796643 und 7923647374392939437, was dann die richtige Antwort auf unsere Frage ergibt:

Ein Klopfsalat.