Die Hypothese

Nach neuester Forschung haben Feedforward Networks (FFNs) eine speicher-ähnliche Rolle in LLMs. Sie speichern faktisches Wissen und Assoziationen, während Attention-Layer bestimmen, welche Information relevant ist. Dies erklärt, warum FFNs die meisten Parameter haben (~2/3) und warum MoE-Modelle verschiedene Experten für verschiedene Wissensdomänen haben.

Architektur-Rollen im Transformer

Attention Layer (Router)

Funktion
Berechnet, welche Informationen relevant sind und wie sie kombiniert werden
Operation
Q·K^T → Softmax → Weighted Average von Values
Parameter
~1/3 der Transformer-Parameter
Metapher
"Routing-Netzwerk" - bestimmt welche Neuronen aktiv sein sollten

Feedforward Layer (Memory)

Funktion
Speichert faktisches Wissen, Vokabular, Konzept-Assoziationen
Operation
Position-weise: x → ReLU(xW₁+b₁) → (xW₂+b₂)
Parameter
~2/3 der Transformer-Parameter
Metapher
"Langzeitgedächtnis" - speichert gelernte Assoziationen und Fakten

Praktisches Beispiel: "Paris ist die Hauptstadt von Frankreich"

Input: "Paris"
Attention: Routet zu relevanten Kontexten (Länder, Geographie, Hauptstädte)
FFN: Hat gelernt: Paris_embedding → {land: Frankreich, typ: Hauptstadt}
Input: "What is the capital of France?"
Attention: Routet "France" Token zu gespeichertem "Paris" Wissen
FFN: Nutzt gelernte Assoziation um "Paris" zu generieren
Evidenz aus der Forschung
Beobachtung Memory-Hypothese Interpretation Implikationen
2/3 der Parameter in FFN FFNs speichern das meiste Wissen Kompression von Wissen pro Parameter wichtig
FFN ist position-weise Jede Position kann unabhängig auf sein Memory zugreifen Parallelisierung möglich
MoE hat spezialisierte Experten Verschiedene Experten speichern verschiedene Domänen Router muss richtige Domain wählen
Neuron als Konzept Einzelne FFN-Neuronen kodieren Konzepte Interpretierbarkeit möglich
Adapter-Module funktionieren Kleine Parameter können Wissen "injizieren" Effiziente Fine-Tuning möglich (LoRA)

Knowledge Neurons

Forschung zeigt, dass einzelne Neuronen im FFN Konzepte kodieren. Beispiel: Ein Neuron aktiviert sich bei allen Formen von "Paris", ein anderes bei allen Ländern.

Capacity Factor

MoE-Router braucht genug "Capacity" um verschiedene Neuronen zu aktivieren. Zu wenig Capacity = Information Loss, zu viel = Verschwendung.

Training Dynamics

Bei Pretraining speichert FFN Wissen. Bei Fine-Tuning (RLHF) wird vorwiegend das Routing (Attention) neu gelernt. FFN bleibt relativ stabil.

Scaling Laws

Wenn FFN-Parameter wachsen, wächst auch die "Kapazität" für Wissen. Deshalb braucht man sehr große FFNs für sehr großes Wissen. (d_ff = 4×d_model oder mehr)

LoRA & Adapter

LoRA funktioniert, weil es nur das "Routing" (Attention/Adapter-Gewichte) neu lernt, nicht die Basis-Wissen (FFN). Daher braucht es nur ~0.1% neue Parameter!

Zero-Shot Generalization

FFN-Memory ermöglicht Zero-Shot Learning: Das Modell kombiniert bekannte Konzepte auf neue Art, ohne die Memory zu ändern.

Mathematische Perspektive
Attention als Router:
attention_scores = Softmax(Q·K^T/√d_k)
output = attention_scores · V

FFN als Memory:
memory(x) = ReLU(x·W₁ + b₁)·W₂ + b₂

Zusammen:
y = Attention(x) + FFN(x) + x
Implikationen für Modell-Design

Für Dense Modelle

d_ff Größe
Je größer d_ff, desto mehr Wissen kann gespeichert werden. Standard: 4×d_model (GPT, BERT)
Parameter-Budget
Größere FFN → Besseres Wissen, weniger Attention-Köpfe

Für MoE Modelle

Expert Specialization
Verschiedene Experten speichern verschiedene Knowledge-Domänen
Router Training
Router muss lernen, welcher Expert für welches Token relevant ist