Behind AIWie funktionieren KI-Sprachmodelle?

Glossar

Die wichtigsten Begriffe rund um KI-Sprachmodelle – kurz erklärt, mit Links zu den Erklärseiten und weiterführenden Quellen.

Daten Training Inferenz ML-Grundlagen Allgemein

Daten

Token

Ein Token ist die kleinste Einheit, in die ein Sprachmodell Text zerlegt: mal ein ganzes Wort, mal nur ein Wortteil oder ein einzelnes Zeichen. Jedes Token bekommt eine Zahl (die Token-ID), denn das Modell verarbeitet keine Buchstaben, sondern nur Zahlen. „Programmieren“ kann zum Beispiel in „Program“ + „m“ + „ieren“ zerfallen – ein Wort, drei Tokens.

Mehr dazu auf dieser Seite3Blue1Brown: But what is a GPT?

Tokenisierung

Tokenisierung ist der erste Schritt, bevor ein Modell Text verarbeitet: Der Text wird in Tokens zerschnitten und jedes Token einer Zahl zugeordnet. Üblich ist dafür der BPE-Algorithmus (Byte Pair Encoding), der häufige Zeichenfolgen zu eigenen Tokens zusammenfasst und seltene Wörter in kleinere Stücke aufteilt. Die Tokens müssen nicht mit Wörtern übereinstimmen.

Mehr dazu auf dieser SeiteWikipedia 3Blue1Brown: But what is a GPT?

Embedding

Ein Embedding übersetzt Bedeutung in Zahlen: Jedes Wort wird zu einem langen Zahlenvektor (oft mehrere hundert Zahlen). Das Besondere ist, dass Wörter mit ähnlicher Bedeutung ähnliche Vektoren bekommen – „Hund“ und „Katze“ liegen nah beieinander, „Hund“ und „Mathematik“ weit auseinander. So wird Ähnlichkeit von Bedeutung messbar; das ist die Grundlage von semantischer Suche und RAG.

Mehr dazu auf dieser SeiteWikipedia 3Blue1Brown: But what is a GPT?

Vektor

Ein Vektor ist eine geordnete Liste von Zahlen. Man kann ihn sich als Punkt in einem Raum vorstellen: Bei zwei Zahlen ist es eine Fläche, bei 768 Zahlen ein 768-dimensionaler Raum, den man nicht mehr zeichnen kann. In einem Sprachmodell ist jedes Wort, jedes Bild-Stück und jede Bedeutung ein solcher Vektor – und die Nähe zweier Vektoren misst ihre Ähnlichkeit.

Mehr dazu auf dieser Seite

Vokabular

Das Vokabular ist die feste Sammlung aller Tokens, die ein Modell unterscheiden kann; in modernen Modellen sind das oft über 50 000. Jeder Eintrag hat eine eigene Token-ID, und nur diese Bausteine kann das Modell lesen oder schreiben. Bei jedem Schritt vergibt das Modell jedem Token des Vokabulars eine Wahrscheinlichkeit, das nächste zu sein.

Mehr dazu auf dieser Seite

Trainingsdaten

Trainingsdaten sind die Texte, aus denen ein Sprachmodell Sprache lernt – meist ein riesiger, ungeordneter Querschnitt des Webs mit Milliarden von Tokens. Aus dem rohen Web wird über 90 Prozent wieder verworfen: Duplikate und Müll fliegen raus, der Rest wird nach Qualität gefiltert. Welche Texte übrig bleiben, prägt das Wissen, die Fähigkeiten und die blinden Flecken des Modells.

Mehr dazu auf dieser SeiteKarpathy: Deep Dive into LLMs

Kontextfenster

Das Kontextfenster ist die Menge an Text – gemessen in Tokens –, die ein Modell bei einer Antwort gleichzeitig im Blick hat: die Eingabe plus das bisher Geschriebene. Alles innerhalb dieses Fensters kann die nächste Vorhersage beeinflussen; was darüber hinausgeht, fällt aus dem Blick. Bei langen Gesprächen oder Dokumenten entscheidet diese Grenze, woran sich das Modell noch „erinnert“.

Mehr dazu auf dieser Seite

Multimodal

Multimodal beschreibt ein Modell, das mehr als nur Text verarbeitet – auch Bilder, Ton und teils Video. Der Trick ist, dass alles in dieselbe Zahlensprache übersetzt wird: Ein Bild wird in Kacheln zerlegt und jede zu einem Vektor im selben Bedeutungsraum wie die Text-Tokens; Ton wird zuerst in ein „Bild des Klangs“ verwandelt. So muss das Modell nichts neu lernen – eine Bild-Kachel ist für es bloß ein weiteres Stück in der Reihe.

Mehr dazu auf dieser SeiteWikipedia

Training

Vortraining (Pretraining)

Pretraining ist die erste und längste Phase im Aufbau eines Sprachmodells. Das Modell bekommt riesige Mengen Text und lernt eine einzige Aufgabe: das jeweils nächste Wortstück vorhersagen. Dabei wird es nach jedem Fehler ein winziges Stück nachjustiert – millionenfach. So entsteht das Sprach- und Weltwissen, auf dem alle späteren Schritte aufbauen; die Daten sind dabei kein Lehrbuch, sondern ein Querschnitt dessen, was online steht.

Mehr dazu auf dieser SeiteKarpathy: Deep Dive into LLMs

Finetuning

Nach dem Pretraining ist ein Modell ein treffsicherer Text-Fortsetzer, aber kein Assistent: Es schreibt einfach weiter, was wahrscheinlich käme. Beim Finetuning (auch Instruction-Tuning oder Supervised Fine-Tuning, kurz SFT) trainiert man es mit Tausenden Beispielgesprächen aus Anfrage und idealer Antwort. So lernt es ein festes Gesprächsformat und die Gewohnheit, Anweisungen zu folgen und aufzuhören, wenn die Antwort fertig ist. Das Wissen stammt fast ganz aus dem Pretraining – Finetuning bringt vor allem das Verhalten bei.

Mehr dazu auf dieser SeiteWikipedia Karpathy: Deep Dive into LLMs

RLHF

RLHF steht für Reinforcement Learning from Human Feedback. Was eine gute Antwort ausmacht, lässt sich kaum als Regel aufschreiben – aber Menschen können bei zwei Antworten leicht sagen, welche besser ist. In drei Schritten sammelt man tausende solcher Vergleiche, lernt daraus ein Belohnungsmodell, das die menschlichen Vorlieben als Punktzahl vorhersagt, und optimiert das Sprachmodell dann auf hohe Bewertungen. So nimmt es Werte auf, die niemand direkt programmieren könnte.

Mehr dazu auf dieser SeiteWikipedia Karpathy: Deep Dive into LLMs

Belohnungsmodell

Das Belohnungsmodell ist das Herzstück von RLHF. Aus tausenden menschlichen Vergleichen lernt es, für jede beliebige Antwort vorherzusagen, wie sehr Menschen sie mögen würden – ausgedrückt als eine Zahl. Diese Zahl ersetzt im weiteren Training den Menschen: Das Sprachmodell wird so optimiert, dass es Antworten erzeugt, die das Belohnungsmodell hoch bewertet. Der Haken: Es ist nur ein Stellvertreter für echten Geschmack und lässt sich austricksen.

Mehr dazu auf dieser Seite

Bradley-Terry-Modell

Das Bradley-Terry-Modell ist die Mathematik hinter dem Belohnungsmodell. Es nimmt lauter Vergleiche der Form „A ist besser als B“ und leitet daraus für jede Antwort eine einzelne Punktzahl ab, sodass die beobachteten Vergleiche möglichst gut passen. Je größer der Punktabstand, desto sicherer wird die eine Antwort der anderen vorgezogen. Große RLHF-Systeme nutzen genau diese Methode, nur mit einem riesigen Netz statt weniger ablesbarer Merkmale.

Mehr dazu auf dieser SeiteWikipedia

Reward Hacking

Reward-Hacking entsteht, weil das Belohnungsmodell nur ein Stellvertreter für echten menschlichen Geschmack ist und das Sprachmodell hartnäckig auf diese eine Zahl optimiert. Findet es eine Antwort, die hoch bewertet wird, ohne wirklich zu helfen – lang, selbstsicher, schmeichelhaft –, nimmt es sie. Echte Systeme halten mit Sicherungen dagegen oder ersetzen die geratene Belohnung durch eine geprüfte, wie bei RLVR.

Mehr dazu auf dieser SeiteWikipedia

RLVR

RLVR steht für Reinforcement Learning with Verifiable Rewards. Statt die Belohnung von einem gelernten Modell raten zu lassen, prüft ein Programm, ob die Antwort stimmt: Bei Mathe wird nachgerechnet, bei Code laufen Tests, beim Buchstabenzählen zählt man nach. Das Modell erzeugt viele Lösungswege, der Prüfer entscheidet bei jedem nur richtig oder falsch, und das Training macht die richtigen Wege wahrscheinlicher. Eine solche Belohnung lässt sich nicht überreden – das treibt moderne Reasoning-Modelle an.

Mehr dazu auf dieser Seite

Verifier (Prüfer)

Der Prüfer ist das Kernstück von RLVR: ein Stück Code, das eine Antwort nicht bewertet, sondern überprüft. Er rechnet die Mathe nach, lässt die Tests laufen oder zählt die Buchstaben direkt im Wort. Das Ergebnis ist die Wahrheit, gegen die jeder Versuch geprüft wird – keine Schätzung, keine Meinung. Manche falschen Versuche klingen genauso überzeugend wie die richtigen; den Prüfer beirrt das nicht, und genau deshalb lässt er sich nicht austricksen.

Mehr dazu auf dieser Seite

Verlust (Loss)

Der Verlust (Loss) ist der Hebel beim Lernen: eine Zahl, die misst, wie schlecht das Modell das richtige Ergebnis vorhergesagt hat. Aus diesem Fehler lässt sich für jede einzelne Zahl im Modell ausrechnen, in welche Richtung sie ihn kleiner macht – und genau dorthin wird sie ein winziges Stück verschoben. Man kann sich den Verlust als Landschaft über den Gewichten vorstellen, in der das Training bergab sucht.

Mehr dazu auf dieser SeiteWikipedia

Epoche

Eine Epoche ist ein vollständiger Durchlauf durch alle Trainingsbeispiele. Nach jedem Beispiel justiert das Modell seine Stellschrauben ein wenig nach; ist der ganze Datensatz einmal durch, ist eine Epoche vorbei. Lernen braucht meist viele Epochen, weil das Modell dieselben Daten wieder und wieder sieht und mit jedem Durchgang etwas treffsicherer wird. Zu viele Epochen auf zu wenig Daten können allerdings zu Überanpassung führen.

Mehr dazu auf dieser Seite

Überanpassung

Überanpassung heißt: Das Modell trifft die Trainingsdaten perfekt, scheitert aber an neuen, ungesehenen Beispielen. Es hat die Zufälligkeiten und das Rauschen im Trainingssatz auswendig gelernt statt die zugrunde liegende Regel. Oft entsteht das durch ein zu großes Modell oder zu viele Durchläufe auf zu wenig Daten; ein kleineres Modell zieht eine glattere Grenze und verallgemeinert meist besser. Diese Abwägung steckt hinter jedem echten Training.

Mehr dazu auf dieser SeiteWikipedia

Train/Test-Split

Beim Train/Test-Split teilt man die Daten in zwei Teile: Mit den Trainingsdaten lernt das Modell, die zurückgehaltenen Testdaten sieht es beim Lernen nie. Erst der Vergleich beider Genauigkeiten zeigt, ob das Modell wirklich die Regel gelernt hat oder nur auswendig: Bleibt die Test-Genauigkeit hinter der Trainings-Genauigkeit zurück, ist das ein Zeichen für Überanpassung. So macht der Split sichtbar, ob das Gelernte auch auf Neues passt.

Mehr dazu auf dieser SeiteWikipedia

Parameter (Gewichte)

Parameter, auch Gewichte genannt, sind die einstellbaren Zahlen im Inneren eines Modells – seine Stellschrauben. Jeder Parameter sagt, wie stark ein Signal weitergegeben wird; zusammen bilden sie alles, was das Modell kann. Beim Training wird jeder einzelne ein winziges Stück in die Richtung verschoben, die den Fehler verkleinert. Große Sprachmodelle haben Milliarden davon, und ihre Zahl bestimmt mit, wie viel Speicher das Modell braucht.

Mehr dazu auf dieser Seite

Inferenz

Inferenz

Inferenz ist die Anwendungsphase eines Sprachmodells: Das Training ist abgeschlossen, alle Parameter stehen fest, und das Modell wendet nur noch an, was es gelernt hat. Wer mit einer KI chattet, löst Inferenz aus. Im Kern besteht sie aus der Vorhersage des nächsten Tokens, wieder und wieder.

Mehr dazu auf dieser SeiteKarpathy: Deep Dive into LLMs

Next-Token-Vorhersage

Bei der Next-Token-Vorhersage berechnet das Modell für jedes mögliche nächste Token eine Wahrscheinlichkeit – zur Wahl stehen Zehntausende, aber nur eine Handvoll ist wirklich wahrscheinlich. Einen ganzen Text erzeugt es durch Wiederholung: Token anhängen, neu rechnen, nächstes Token wählen. So entsteht Wort für Wort ein ganzer Satz.

Mehr dazu auf dieser Seite3Blue1Brown: But what is a GPT?LLM Visualization (bbycroft.net)Financial Times: Generative AI

Logits

Logits sind die unbearbeiteten Punktzahlen, die das Modell ganz am Ende für jedes mögliche nächste Token ausgibt – ein höherer Wert bedeutet „passt besser“. Sie sind noch keine Wahrscheinlichkeiten; erst die Softmax-Funktion rechnet sie in eine Verteilung um, die sich zu 100 % addiert.

Mehr dazu auf dieser Seite

Logprobs

Logprobs sind die Token-Wahrscheinlichkeiten in logarithmischer Form und machen sichtbar, wie sicher oder unsicher ein Modell beim nächsten Token ist. Trägt ein einzelner Balken fast die ganze Wahrscheinlichkeit, ist sich das Modell sicher; sind die Balken flach und zerstreut, rät es. Im fertigen Text klingt beides gleich überzeugt – die Logprobs zeigen den Unterschied.

Mehr dazu auf dieser Seite

Softmax

Softmax ist der Rechenschritt, der die rohen Logits in eine Wahrscheinlichkeitsverteilung verwandelt: Aus beliebigen Zahlen werden Werte zwischen 0 und 1, die sich zusammen zu 100 % addieren. Große Vorsprünge werden dabei betont, sodass das wahrscheinlichste Token klar heraussticht. Dieselbe Funktion macht aus den Relevanz-Werten der Attention die fertigen Gewichte.

Mehr dazu auf dieser SeiteWikipedia

Temperatur

Die Temperatur steuert, wie „mutig“ das Modell wählt. Niedrig heißt: Es nimmt fast immer das wahrscheinlichste Token – verlässlich, aber vorhersehbar. Hoch heißt: Die Verteilung wird flacher, auch unwahrscheinlichere Tokens kommen zum Zug – der Text wird kreativer und unberechenbarer.

Mehr dazu auf dieser Seite

Sampling

Sampling ist die Art, wie aus der Wahrscheinlichkeitsverteilung ein konkretes nächstes Token ausgewählt wird. Statt stur das wahrscheinlichste zu nehmen, wird per Zufall gezogen – wahrscheinliche Tokens öfter, unwahrscheinliche selten. Die Temperatur stellt ein, wie stark der Zufall mitspielt; deshalb klingt dieselbe Frage zweimal nicht wortgleich.

Mehr dazu auf dieser Seite

Attention (Aufmerksamkeit)

Attention ist das Herzstück des Transformers: Jede Position kann sich über die bisherigen Wörter zurückblicken und gewichtet, was gerade zählt – worauf sich ein Wort wie „es“ bezieht, welche Wörter zusammengehören. So sammelt jede Position aus den früheren Wörtern das ein, was zu ihr passt, und ein Wort trägt erst dadurch die Bedeutung seines ganzen Satzes.

Mehr dazu auf dieser SeiteWikipedia 3Blue1Brown: Attention in transformers

Query, Key, Value

Query, Key und Value sind die drei Bausteine, aus denen Attention ihre Gewichte berechnet. Jede Position stellt eine Anfrage (Query), jedes Wort hält einen Schlüssel (Key); ihr Skalarprodukt ergibt die Relevanz, Softmax macht daraus Gewichte, und die Ausgabe ist die gewichtete Mischung der Inhalte (Values). Diese drei Projektionen sind nicht eingebaut, sondern im Training gelernt.

Mehr dazu auf dieser Seite3Blue1Brown: Attention in transformers

Transformer

Der Transformer ist der Bauplan hinter heutigen Sprachmodellen. Sein Kern ist die Attention, mit der jede Position auf die bisherigen Wörter zurückschaut. Viele solcher Schichten werden übereinandergestapelt; über die Schichten hinweg entsteht so Schritt für Schritt ein immer reicheres Verständnis des Satzes.

Mehr dazu auf dieser SeiteWikipedia 3Blue1Brown: But what is a GPT?LLM Visualization (bbycroft.net)

Chain-of-Thought (Gedankenkette)

Chain-of-Thought heißt, dass das Modell seinen Lösungsweg ausschreibt, statt sofort zu antworten. Das ist nichts Magisches: Es sagt weiterhin nur das nächste Token voraus, gibt sich aber durch die Zwischenschritte selbst mehr Kontext – der Lösungsweg ist der sichtbar gemachte Arbeitsspeicher. Bei Rechenaufgaben entscheidet das oft über richtig und falsch.

Mehr dazu auf dieser Seite

Halluzination

Eine Halluzination entsteht, weil ein Sprachmodell den wahrscheinlichsten nächsten Text vorhersagt – nicht die Wahrheit. Fehlt das Wissen, bricht es nicht ab, sondern setzt mit etwas Plausiblem fort und erfindet Romane, Lebensläufe oder Quellen mit glaubwürdigen Details. Aus dem Ton allein lässt sich das nicht erkennen: Das Modell klingt richtig wie falsch gleich überzeugt.

Mehr dazu auf dieser SeiteWikipedia

RAG

RAG steht für Retrieval-Augmented Generation: Statt nur aus dem Gedächtnis zu antworten, schlägt das Modell zuerst in einer Wissensquelle nach und stützt seine Antwort auf die passenden Dokumente. So kann es über Wissen sprechen, das es nie im Training gesehen hat – etwa ein internes Wiki oder frische Nachrichten. RAG ist aber nur so gut wie das, was die Suche findet.

Mehr dazu auf dieser SeiteWikipedia

Retrieval

Retrieval ist das Herz von RAG: das Heraussuchen der passenden Dokumente. Es ist genau die Ähnlichkeitssuche der Embeddings – die Frage wird in einen Vektor übersetzt und mit jedem Dokument verglichen, die ähnlichsten wandern als Kontext vor die Frage. Fehlt das richtige Dokument oder liegt ein ähnlich klingendes, aber falsches zuoberst, erdet sich die Antwort auf der falschen Quelle.

Mehr dazu auf dieser Seite

Grounding

Grounding heißt, eine Antwort auf konkrete Unterlagen zu stützen, die dem Modell zur Frage beigelegt werden, statt es aus dem Gedächtnis raten zu lassen. In RAG ist das der Punkt nach dem Heraussuchen: Das Modell formuliert seine Antwort aus den gefundenen Dokumenten. Sind diese falsch, erdet sich die Antwort auf der falschen Quelle – eine gute Grundlage zählt darum so viel wie das Modell selbst.

Mehr dazu auf dieser Seite

Vektorsuche

Vektorsuche findet Texte nach Bedeutung statt nach übereinstimmenden Wörtern. Frage und Dokumente werden in Embeddings übersetzt – lange Zahlenvektoren –, und wie nah sich zwei davon stehen, misst die Cosinus-Ähnlichkeit. So findet die Suche auch passende Dokumente, in denen die Stichwörter der Frage gar nicht vorkommen. Das ist der Retrieval-Schritt in RAG.

Mehr dazu auf dieser SeiteWikipedia

Agent (KI-Agent)

Ein Agent ist mechanisch kein neues Modell, sondern dasselbe Next-Token-Modell in einer Schleife: Es sagt Text voraus, und ist dieser Text ein Werkzeug-Aufruf, führt das Programm drumherum das Werkzeug aus und schreibt das Ergebnis zurück in den Kontext. Die „Handlungsfähigkeit“ steckt im Gerüst und in den Werkzeugen, nicht im Modell selbst.

Mehr dazu auf dieser SeiteWikipedia

Function Calling

Function Calling ist die Art, wie ein Modell Werkzeuge benutzt: Statt selbst zu rechnen oder nachzuschlagen, gibt es einen Werkzeug-Aufruf als Text aus – etwa „Datum nachschlagen“. Das Gerüst um das Modell fängt diesen Aufruf ab, führt das Werkzeug wirklich aus und schreibt das Ergebnis als neue Zeile in den Kontext. Dann sagt das Modell darüber weiter voraus.

Mehr dazu auf dieser Seite

Prompt

Ein Prompt ist die Eingabe an ein Sprachmodell – die Frage, der Auftrag oder schlicht ein Satzanfang. Das Modell hat keinen anderen Zugang zur Aufgabe als diesen Text; es sagt über den gesamten bisherigen Text das nächste Token voraus. Wie der Prompt formuliert ist, beeinflusst darum direkt, was herauskommt.

Mehr dazu auf dieser SeiteWikipedia

System-Prompt

Der System-Prompt ist eine Anweisung, die dem Gespräch vorangestellt wird und Rolle, Ton und Grenzen des Modells festlegt – etwa „Du bist ein hilfreicher Assistent“. Der Nutzer sieht ihn meist nicht, doch das Modell behandelt ihn wie jeden anderen Text im Kontext und sagt darüber das nächste Token voraus. Er prägt das Verhalten über das ganze Gespräch.

Mehr dazu auf dieser Seite

ML-Grundlagen

Perzeptron

Ein Perzeptron ist der kleinste Baustein neuronaler Netze: Es nimmt ein paar Zahlen, multipliziert jede mit einem Gewicht, zählt alles zusammen und gibt 1 aus, wenn die Summe eine Schwelle übersteigt, sonst 0. Geometrisch zieht es damit eine gerade Linie durch die Eingaben und sortiert sie in zwei Gruppen. Manche Muster wie XOR lassen sich mit einer einzigen Linie aber nie trennen – dafür braucht es mehrere Neuronen in Schichten.

Mehr dazu auf dieser SeiteWikipedia 3Blue1Brown: Neural networks

Neuron

Ein künstliches Neuron bildet die gewichtete Summe seiner Eingaben und schickt sie durch eine Aktivierungsfunktion, die das Ergebnis in einen handlichen Bereich quetscht. Es hat nichts mit einer biologischen Nervenzelle gemein außer dem Bild; es ist reine Rechnung aus Multiplizieren und Addieren. Millionen solcher Neuronen, in Schichten gestapelt und gemeinsam trainiert, bilden ein neuronales Netz.

Mehr dazu auf dieser SeiteWikipedia 3Blue1Brown: Neural networks

Bias (Schwellenwert)

Der Bias (oder Schwellenwert) bestimmt, wie hoch die gewichtete Summe sein muss, damit ein Neuron feuert. Ein niedriger Schwellenwert lässt das Neuron leicht „ja“ sagen, ein hoher macht es zurückhaltend. Anders als die Gewichte, die einzelnen Eingaben mehr oder weniger Bedeutung geben, verschiebt der Bias die ganze Entscheidungsgrenze – er wird beim Lernen mit angepasst.

Mehr dazu auf dieser Seite3Blue1Brown: Neural networks

MLP (Mehrschichtiges Perzeptron)

Ein MLP (mehrschichtiges Perzeptron) stapelt Neuronen in Schichten: eine oder mehrere versteckte Schichten zwischen Eingabe und Ausgabe. Jedes versteckte Neuron zieht eine eigene Linie, die nächste Schicht kombiniert sie zu gekrümmten Grenzen – so lässt sich auch XOR lösen, woran ein einzelnes Perzeptron scheitert. Genau dieser Stapel aus gewichteten Summen und Quetschfunktionen, per Backpropagation gelernt, ist im Kern jedes neuronale Netz, vom Spielzeugbeispiel bis zum Sprachmodell.

Mehr dazu auf dieser SeiteWikipedia 3Blue1Brown: Neural networks

Aktivierungsfunktion

Eine Aktivierungsfunktion entscheidet, was ein Neuron nach der gewichteten Summe ausgibt. Statt einer harten Stufe (0 oder 1) nimmt man meist eine weiche Funktion wie tanh, Sigmoid oder ReLU, die sich glatt verbiegt – erst dadurch wird ein Netz lernfähig und kann auch krumme Grenzen ziehen. Ohne sie würde ein Stapel von Schichten zu einer einzigen geraden Linie zusammenfallen.

Mehr dazu auf dieser SeiteWikipedia 3Blue1Brown: Neural networks

ReLU

ReLU ist eine besonders einfache Aktivierungsfunktion mit einem Knick bei null: Alles Negative wird zu 0, alles Positive bleibt, wie es ist. Dadurch entstehen stückweise gerade Grenzen statt runder, und das Lernen ist schnell und stabil. ReLU ist heute die übliche Wahl in großen Netzen, auch in Sprachmodellen.

Mehr dazu auf dieser SeiteWikipedia

Sigmoid

Sigmoid ist eine S-förmige Funktion, die jede Zahl weich in den Bereich zwischen 0 und 1 quetscht – aus einer harten Ja/Nein-Schwelle wird so ein glatter Übergang. Das lässt sich als Wahrscheinlichkeit lesen, weshalb Sigmoid oft am Ausgang eines Netzes steht, das eine einzelne Ja/Nein-Entscheidung trifft. Die verwandte tanh-Funktion quetscht stattdessen in den Bereich zwischen −1 und 1.

Mehr dazu auf dieser SeiteWikipedia

Neuronales Netz

Ein neuronales Netz entsteht, wenn man viele künstliche Neuronen in Schichten stapelt: Die Ausgaben einer Schicht sind die Eingaben der nächsten. Mehr braucht es im Kern nicht – gewichtete Summen und Aktivierungsfunktionen, geschichtet und per Backpropagation gelernt. Vom kleinen XOR-Netz bis zum Sprachmodell ist es dieselbe Maschine, nur größer und mit viel mehr Gewichten.

Mehr dazu auf dieser SeiteWikipedia 3Blue1Brown: Neural networks

Gradientenabstieg

Beim Gradientenabstieg stellt man sich den Fehler als Höhe über den Gewichten vor – eine Landschaft mit Tälern. Die Steigung an der aktuellen Stelle (der Gradient) zeigt, wo es am steilsten bergauf geht; ein Schritt in die Gegenrichtung senkt den Fehler. Das wiederholt das Netz millionenfach, bis es in einem Tal landet. So lernen Perzeptron, MLP und Sprachmodell – nur in unterschiedlich vielen Dimensionen.

Mehr dazu auf dieser SeiteWikipedia 3Blue1Brown: Gradient descent

Lernrate

Die Lernrate ist die Schrittweite des Gradientenabstiegs. Ist sie zu klein, kriecht das Lernen quälend langsam; ist sie zu groß, überschießt jeder Schritt das Tal, und im schlimmsten Fall wächst der Fehler immer weiter. Die richtige Lernrate zu finden, ist eine der zentralen Stellschrauben beim Training eines Netzes.

Mehr dazu auf dieser SeiteWikipedia 3Blue1Brown: Gradient descent

Backpropagation

Backpropagation rechnet aus, wie stark jedes einzelne Gewicht am Fehler schuld ist – die Steigung, die der Gradientenabstieg für seinen Schritt braucht. Dazu wird der Fehler von der Ausgabe Schicht für Schicht rückwärts durchgereicht und an jeder Kante mit dem lokalen Beitrag multipliziert. Im Kern ist es nur die Kettenregel der Mathematik, sauber organisiert – und damit der Motor, der jedes neuronale Netz vom kleinen MLP bis zum Sprachmodell trainiert.

Mehr dazu auf dieser SeiteWikipedia 3Blue1Brown: Backpropagation

Diffusionsmodell

Ein Diffusionsmodell dreht ein einfaches Rezept um: Vorwärts kippt man einer Form Schritt für Schritt Rauschen zu, bis nur noch Zufall übrig ist. Das Netz lernt, für jeden Schritt das zugefügte Rauschen vorherzusagen und abzuziehen. Generieren heißt dann: bei reinem Zufall anfangen und diesen Entrausch-Schritt viele Male wiederholen, bis ein Bild dasteht. Stable Diffusion und Midjourney arbeiten genau so – nur mit Millionen Pixeln statt Punkten in der Ebene.

Mehr dazu auf dieser SeiteWikipedia

DDPM

DDPM ist die klassische Bauart, nach der Diffusionsmodelle arbeiten. Sie zerlegt das Entrauschen in viele kleine Schritte: In jedem Schritt sagt das Netz das enthaltene Rauschen voraus, zieht es teilweise ab und nähert sich so von reinem Zufall einer gelernten Form. Der Name steht für „Denoising Diffusion Probabilistic Model“ und beschreibt das Grundrezept hinter Bildgeneratoren wie Stable Diffusion.

Mehr dazu auf dieser Seite

Rauschen

Rauschen ist zufällige Streuung ohne erkennbares Muster, oft als Gauss-Wolke um die Originalwerte. In einem Diffusionsmodell spielt es eine doppelte Rolle: Vorwärts wird eine Form Schritt für Schritt mit Rauschen überdeckt, bis nur noch Zufall übrig ist; rückwärts lernt das Netz, dieses Rauschen vorherzusagen und abzuziehen. Weil für jeden Zwischenschritt genau bekannt ist, wie viel Rauschen dazukam, wird das Verrauschen selbst zur Lernaufgabe.

Mehr dazu auf dieser Seite

Allgemein

Sprachmodell (LLM)

Ein Sprachmodell (oft LLM für „Large Language Model“) ist ein Programm, das aus sehr viel Text gelernt hat, welches Wortstück als Nächstes am wahrscheinlichsten kommt. Es schreibt einen Text, indem es immer wieder das nächste Stück anhängt – ohne den Inhalt zu „verstehen“ wie ein Mensch. So entstehen Antworten von Werkzeugen wie ChatGPT.

Mehr dazu auf dieser SeiteWikipedia Karpathy: Deep Dive into LLMs 3Blue1Brown: But what is a GPT?

GPT

GPT ist der Name einer bekannten Familie von Sprachmodellen der Firma OpenAI, die hinter ChatGPT stehen. Die Abkürzung bedeutet „Generative Pre-trained Transformer“: erzeugend, vortrainiert auf viel Text, und gebaut nach der Transformer-Bauweise. Inzwischen wird „GPT“ oft auch allgemein für solche Modelle benutzt.

Wikipedia 3Blue1Brown: But what is a GPT?

Modell

Ein Modell ist das fertige Ergebnis des Trainings: ein Programm zusammen mit den vielen Zahlenwerten (den Gewichten), die es beim Lernen angesammelt hat. Gibt man ihm eine Eingabe, rechnet es daraus eine Vorhersage – beim Sprachmodell etwa das nächste Wortstück. Das Training stellt diese Zahlen ein, im Betrieb bleiben sie unverändert.

Mehr dazu auf dieser Seite

GPU

Eine GPU (Grafikprozessor) ist ein Chip, der ursprünglich für Bilder gebaut wurde und sehr viele gleichartige Rechnungen gleichzeitig erledigt. Genau solche Rechnungen braucht ein Sprachmodell, deshalb laufen Training und Betrieb meist auf GPUs. Wer ein Modell lokal nutzen will, stößt hier oft an die Grenze, weil leistungsfähige GPUs teuer sind.

Mehr dazu auf dieser SeiteWikipedia

Lokal vs. Cloud

„Lokal vs. Cloud“ beschreibt, wo ein Modell rechnet. Lokal heißt auf dem eigenen Gerät: Die Eingaben verlassen den Computer nicht, dafür sind nur kleinere Modelle praktikabel. Cloud heißt auf fremden Servern im Internet: meist stärkere Modelle, aber die Eingaben werden an einen Anbieter geschickt. Welche Variante passt, hängt von Datenschutz, gewünschter Qualität und Aufwand ab.

Mehr dazu auf dieser SeiteKarpathy: How I use LLMs

Open Weights

Open Weights bedeutet, dass die gelernten Zahlenwerte eines Modells – seine Gewichte – öffentlich zum Herunterladen bereitstehen. Damit kann man das Modell selbst betreiben, etwa lokal auf eigener Hardware, statt nur über die Server eines Anbieters. Offen sind dabei meist nur die Gewichte; die Trainingsdaten und der genaue Trainingsablauf bleiben oft trotzdem geheim.

Mehr dazu auf dieser Seite