Schritt 1: Kontext verarbeiten
Der Transformer verarbeitet alle bisherigen Tokens: "The", "cat", "sat", "on", "the".
Durch Self-Attention können alle Tokens auf alle anderen Tokens attendieren und Abhängigkeiten erfassen.
Schritt 2: Final Hidden State
Nach allen Transformer-Blöcken entsteht der letzte Hidden State – ein Vektor der gesamte Information des Kontexts komprimiert.
Schritt 3: Projection auf Vokabular
Ein finales lineares Layer projiziert diesen Vektor auf die Vokabulargröße (typisch: 50K - 128K Tokens).
Dies erzeugt "Logits" für jedes mögliche Token.
Schritt 4: Softmax-Normalisierung
Die Softmax-Funktion konvertiert Logits in Wahrscheinlichkeiten (0-1, Summe = 1):
Das Token mit der höchsten Wahrscheinlichkeit wird typischerweise selektiert – im Beispiel "mat".