Wörter als Punkte im semantischen Raum – ähnliche Bedeutungen liegen nahe beieinander. Diese t-SNE-Projektion reduziert ~8.000 Dimensionen auf 2D.
Nach der Tokenisierung (Schritt 1) liegen diskrete Token-IDs vor. Embeddings wandeln diese in kontinuierliche Vektoren um, mit denen mathematische Operationen möglich werden. Diese Vektoren fließen dann über Positional Encoding (Schritt 3) in die Attention-Berechnung.
Die Embedding-Dimension (dmodel) definiert die Kapazität des Modells, Bedeutungen zu repräsentieren. Größere Dimensionen (GPT-4: 12.288, Llama 3 70B: 8.192) ermöglichen feinere semantische Unterscheidungen, erfordern aber mehr Compute. Die Embedding-Matrix enthält oft das erste Viertel aller Modellparameter.
Jedes Wort in einem LLM wird durch einen hochdimensionalen Vektor repräsentiert
(z.B. d = 8.192 bei Llama 3 70B). Diese Vektoren erfassen semantische
Beziehungen: Wörter mit ähnlicher Bedeutung haben ähnliche Vektoren und liegen
im Raum nahe beieinander. Die t-SNE-Projektion macht diese Struktur in 2D sichtbar –
beachte die klaren Cluster für Tiere, Länder, Verben und Adjektive.