LLM Explorer – Causal Masking

Causal Masking Animation

Autoregressive Generierung: Wie die Causal Mask sicherstellt, dass Tokens nur auf vorherige Positionen attendieren können, nicht auf zukünftige.

Causal Masking ist das Fundament autoregressiver Sprachmodelle. Durch Maskierung zukünftiger Tokens wird sichergestellt, dass die Generierung „fair" ist – das Modell sieht nur, was es bereits produziert hat.

📖 Lern-Kontext ▼

Verstehen, warum autoregressive Modelle Causal Masking brauchen
Die mathematische Implementierung (−∞ Addition vor Softmax) kennen
Unterschied zwischen Decoder-only, Encoder-only und Encoder-Decoder verstehen

Schritt 5/5 Kapitel 8: Werkzeuge & Glossar

Technische Grundlagen als Referenz.

Causal Masking ermöglicht effizientes Training mit Teacher Forcing und verhindert „Information Leakage" aus der Zukunft. Ohne Maske wäre paralleles Training unmöglich.

Die Maske ist eine obere Dreiecksmatrix mit −∞-Werten
Nach Softmax werden maskierte Positionen exakt 0, nicht nur sehr klein
GPT, Llama, Claude nutzen Causal Masking; BERT nutzt bidirektionale Attention

Causal Masking in 3 Schritten:

1. Berechne Attention-Scores: S = QK^T / √d_k
2. Addiere Maske: S_masked = S + M (wobei M[i,j] = -∞ für j > i)
3. Softmax: A = softmax(S_masked)

Resultat: A[i,j] = 0 für alle j > i (zukünftige Positionen)

Warum Causal Mask?

Bei autoregressiver Generierung darf Token t nur Informationen von Tokens 0..t-1 verwenden. Dies verhindert "Information Leakage" aus der Zukunft während des Trainings.

Implementierung

Die Maske ist eine obere Dreiecksmatrix mit -∞. Nach Addition zu den Scores werden diese Positionen durch Softmax zu exakt 0, nicht nur zu einem sehr kleinen Wert.

Decoder vs. Encoder

Decoder-only Modelle (GPT, Llama) verwenden immer Causal Masking. Encoder-only (BERT) nutzen bidirektionale Attention ohne Maske. Encoder-Decoder (T5) kombinieren beide.

Training vs. Inferenz

Die Maske ist in Training und Inferenz identisch. Training: Alle Tokens parallel, aber maskiert. Inferenz: Token-für-Token Generierung mit wachsendem Kontext.

Causal Masking Animation

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways