Das Grundprinzip: Nächstes Token vorhersagen

Das Herzstück des LLM-Pretrainings ist eine erstaunlich einfache Aufgabe: Gegeben alle bisherigen Tokens, sage das nächste voraus. Diese "Selbstüberwachungs"-Aufgabe ist der Grund, warum Modelle mit minimalem Label-Aufwand auf Billionen Tokens trainiert werden können.

Mathematisch wird dies als autoregressives Sprachmodell formuliert:

Loss = -Σt log P(xt | x<t; θ)

Wobei xt das aktuelle Token und x<t alle vorherigen Tokens sind

Das Modell lernt durch Backpropagation, die Wahrscheinlichkeitsverteilung P so anzupassen, dass es das Ground-Truth-Token mit möglichst hoher Wahrscheinlichkeit vorhersagt.

Abb. 1 | Next-Token-Prediction Animation: Ein Transformer verarbeitet "The cat sat on the" und generiert eine Wahrscheinlichkeitsverteilung über das Vokabular. Das häufigste Token ist "mat" mit höchster Wahrscheinlichkeit.
1.0x

Wie die Vorhersage funktioniert

Schritt 1: Kontext verarbeiten
Der Transformer verarbeitet alle bisherigen Tokens: "The", "cat", "sat", "on", "the". Durch Self-Attention können alle Tokens auf alle anderen Tokens attendieren und Abhängigkeiten erfassen.

Schritt 2: Final Hidden State
Nach allen Transformer-Blöcken entsteht der letzte Hidden State – ein Vektor der gesamte Information des Kontexts komprimiert.

Schritt 3: Projection auf Vokabular
Ein finales lineares Layer projiziert diesen Vektor auf die Vokabulargröße (typisch: 50K - 128K Tokens). Dies erzeugt "Logits" für jedes mögliche Token.

Schritt 4: Softmax-Normalisierung
Die Softmax-Funktion konvertiert Logits in Wahrscheinlichkeiten (0-1, Summe = 1):

P(tokeni) = exp(logiti) / Σj exp(logitj)

Das Token mit der höchsten Wahrscheinlichkeit wird typischerweise selektiert – im Beispiel "mat".

Abb. 2 | Verteilung der Wahrscheinlichkeiten über Top-20 Tokens. "mat" führt mit 28%, gefolgt von "ground" (15%), "sofa" (12%). Der lange Schwanz zeigt viele Tokens mit geringer Wahrscheinlichkeit.

Teacher Forcing und das Exposure Bias Problem

Während des Trainings verwendet das Modell immer die Ground-Truth-Tokens als Kontext, nicht die eigenen Vorhersagen. Dies nennt sich Teacher Forcing und vereinfacht das Training erheblich.

Das Exposure Bias Problem: Bei der Inferenz muss das Modell allerdings mit seinen eigenen Vorhersagen auskommen – möglicherweise auch mit fehlerhaften Tokens. Diese Diskrepanz zwischen Training und Inferenz kann zu Fehlerakkumulation führen.

Einige Methoden zur Abschwächung:

  • Scheduled Sampling: Während des Trainings schrittweise echte Tokens durch Modellvorhersagen ersetzen
  • Autoregressive Fine-Tuning: Nach dem Pretraining zusätzliche Fine-Tuning-Runden
  • Decoding-Strategien: Beam Search, Top-k, Top-p um bessere Sequenzen zu finden
Abb. 3 | Vergleich: Teacher Forcing (grüne Pfeile = Ground-Truth) vs. Autoregressive Inference (rote Pfeile = Modellvorhersagen). Während Training ist der Kontext korrekt; während Inferenz können Fehler sich ansammeln.

Wichtige Erkenntnisse

🎯 Skalierungsfähigkeit

Self-Supervised Learning auf ungelabelten Daten ermöglicht Training auf Billionen von Tokens (Trillionen bei o3).

📊 Einfache Metrik

Perplexity (Exponential der Cross-Entropy Loss) ist eine intuitive Metrik: Wie überraschend ist der Test-Satz im Durchschnitt?

🔄 Autoregressive Generierung

Beim Generieren wird Vorhersage → Token → Kontext → Vorhersage in einer Schleife wiederholt, bis ein Stopp-Token erreicht wird.

⚡ Qualität mit Größe

Emergente Fähigkeiten treten auf: Kleine Modelle zeigen bestimmte Fähigkeiten überhaupt nicht, große Modelle erwerben sie spontan.

🎭 Ambiguität der Sprache

Viele Tokens sind plausibel. Ein Modell das 28% "mat" vorhersagt, sollte auch alternative Antworten erlauben.

🧠 Decoding-Strategien

Greedy (bestes Token), Sampling, Beam Search – verschiedene Ansätze zum Auswählen von Tokens bei der Generierung.