Autoregressive Generierung: Wie die Causal Mask sicherstellt, dass Tokens nur auf vorherige Positionen attendieren können, nicht auf zukünftige.
Causal Masking ist das Fundament autoregressiver Sprachmodelle. Durch Maskierung zukünftiger Tokens wird sichergestellt, dass die Generierung „fair" ist – das Modell sieht nur, was es bereits produziert hat.
Technische Grundlagen als Referenz.
Causal Masking ermöglicht effizientes Training mit Teacher Forcing und verhindert „Information Leakage" aus der Zukunft. Ohne Maske wäre paralleles Training unmöglich.