Next-Token-Prediction

Wie LLMs lernen, das nächste Wort vorherzusagen: Der Grundmechanismus des Pretrainings

Next-Token-Prediction ist der gesamte Lernalgorithmus von GPT: Gegeben eine Textsequenz, sage das nächste Wort vorher. Aus diesem einfachen Ziel entstehen emergent Grammatik, Fakten, Reasoning und mehr.

📖 Lern-Kontext ▼

Das Pretraining-Objective verstehen
Warum Vorhersage zu Verständnis führt begreifen
Die Rolle der Cross-Entropy Loss kennen

Schritt 4/5 Kapitel 8: Werkzeuge & Glossar

Embeddings & Tokens (4/5) – das fundamentale Trainingsziel aller GPT-artigen Modelle.

Next-Token-Prediction ist das "unreasonable effectiveness" Moment von LLMs: Ein triviales Ziel führt zu komplexem Verhalten. Das Verständnis erklärt Stärken und Schwächen.

Selbst-überwacht: Labels kommen aus dem Text selbst
Skalierbar: Mehr Daten = besseres Modell
Emergent: Komplexe Fähigkeiten entstehen untrainiert

Das Grundprinzip: Nächstes Token vorhersagen

Das Herzstück des LLM-Pretrainings ist eine erstaunlich einfache Aufgabe: Gegeben alle bisherigen Tokens, sage das nächste voraus. Diese "Selbstüberwachungs"-Aufgabe ist der Grund, warum Modelle mit minimalem Label-Aufwand auf Billionen Tokens trainiert werden können.

Mathematisch wird dies als autoregressives Sprachmodell formuliert:

Loss = -Σ_t log P(x_t | x_<t; θ)

Wobei x_t das aktuelle Token und x_<t alle vorherigen Tokens sind

Das Modell lernt durch Backpropagation, die Wahrscheinlichkeitsverteilung P so anzupassen, dass es das Ground-Truth-Token mit möglichst hoher Wahrscheinlichkeit vorhersagt.

Abb. 1 | Next-Token-Prediction Animation: Ein Transformer verarbeitet "The cat sat on the" und generiert eine Wahrscheinlichkeitsverteilung über das Vokabular. Das häufigste Token ist "mat" mit höchster Wahrscheinlichkeit.

Beispiel:

Animationsgeschwindigkeit: 1.0x

Wie die Vorhersage funktioniert

Schritt 1: Kontext verarbeiten
Der Transformer verarbeitet alle bisherigen Tokens: "The", "cat", "sat", "on", "the". Durch Self-Attention können alle Tokens auf alle anderen Tokens attendieren und Abhängigkeiten erfassen.

Schritt 2: Final Hidden State
Nach allen Transformer-Blöcken entsteht der letzte Hidden State – ein Vektor der gesamte Information des Kontexts komprimiert.

Schritt 3: Projection auf Vokabular
Ein finales lineares Layer projiziert diesen Vektor auf die Vokabulargröße (typisch: 50K - 128K Tokens). Dies erzeugt "Logits" für jedes mögliche Token.

Schritt 4: Softmax-Normalisierung
Die Softmax-Funktion konvertiert Logits in Wahrscheinlichkeiten (0-1, Summe = 1):

P(token_i) = exp(logit_i) / Σ_j exp(logit_j)

Das Token mit der höchsten Wahrscheinlichkeit wird typischerweise selektiert – im Beispiel "mat".

Abb. 2 | Verteilung der Wahrscheinlichkeiten über Top-20 Tokens. "mat" führt mit 28%, gefolgt von "ground" (15%), "sofa" (12%). Der lange Schwanz zeigt viele Tokens mit geringer Wahrscheinlichkeit.

Teacher Forcing und das Exposure Bias Problem

Während des Trainings verwendet das Modell immer die Ground-Truth-Tokens als Kontext, nicht die eigenen Vorhersagen. Dies nennt sich Teacher Forcing und vereinfacht das Training erheblich.

Das Exposure Bias Problem: Bei der Inferenz muss das Modell allerdings mit seinen eigenen Vorhersagen auskommen – möglicherweise auch mit fehlerhaften Tokens. Diese Diskrepanz zwischen Training und Inferenz kann zu Fehlerakkumulation führen.

Einige Methoden zur Abschwächung:

Scheduled Sampling: Während des Trainings schrittweise echte Tokens durch Modellvorhersagen ersetzen
Autoregressive Fine-Tuning: Nach dem Pretraining zusätzliche Fine-Tuning-Runden
Decoding-Strategien: Beam Search, Top-k, Top-p um bessere Sequenzen zu finden

Abb. 3 | Vergleich: Teacher Forcing (grüne Pfeile = Ground-Truth) vs. Autoregressive Inference (rote Pfeile = Modellvorhersagen). Während Training ist der Kontext korrekt; während Inferenz können Fehler sich ansammeln.

Wichtige Erkenntnisse

🎯 Skalierungsfähigkeit

Self-Supervised Learning auf ungelabelten Daten ermöglicht Training auf Billionen von Tokens (Trillionen bei o3).

📊 Einfache Metrik

Perplexity (Exponential der Cross-Entropy Loss) ist eine intuitive Metrik: Wie überraschend ist der Test-Satz im Durchschnitt?

🔄 Autoregressive Generierung

Beim Generieren wird Vorhersage → Token → Kontext → Vorhersage in einer Schleife wiederholt, bis ein Stopp-Token erreicht wird.

⚡ Qualität mit Größe

Emergente Fähigkeiten treten auf: Kleine Modelle zeigen bestimmte Fähigkeiten überhaupt nicht, große Modelle erwerben sie spontan.

🎭 Ambiguität der Sprache

Viele Tokens sind plausibel. Ein Modell das 28% "mat" vorhersagt, sollte auch alternative Antworten erlauben.

🧠 Decoding-Strategien

Greedy (bestes Token), Sampling, Beam Search – verschiedene Ansätze zum Auswählen von Tokens bei der Generierung.