KAPITEL 1.6b · FEEDFORWARD NETWORKS

FFN als Memory

Forschungsperspektive: Wie Feedforward Networks faktisches Wissen speichern, während Attention-Layer Information routet

Feedforward Networks als Memory – eine faszinierende Perspektive: Die FFN-Schichten funktionieren wie ein riesiger Key-Value-Speicher für Weltwissen, während Attention bestimmt, welches Wissen abgerufen wird.

📖 Lern-Kontext ▼

Die FFN als Key-Value Memory Metapher verstehen
Die Rollenverteilung zwischen Attention und FFN nachvollziehen
Erkennen, warum FFN ~⅔ der Parameter enthält

Schritt 6/8 Transformer Grundlagen

Nach Multi-Head Attention (Schritt 5) verarbeitet die FFN jeden Token individuell. Diese Darstellung zeigt, wie dabei faktisches Wissen abgerufen wird.

Forschung zeigt: Beim "Knowledge Editing" (z.B. "Wer ist der aktuelle Präsident?") werden oft nur die FFN-Gewichte angepasst. Die FFN speichert Fakten, während Attention den Kontext versteht und routet.

FFN = Key-Value Memory mit d_ff "Speicherplätzen"
Attention routet, FFN speichert Fakten
~⅔ aller Modellparameter sind in FFN-Schichten

Die Hypothese

Nach neuester Forschung haben Feedforward Networks (FFNs) eine speicher-ähnliche Rolle in LLMs. Sie speichern faktisches Wissen und Assoziationen, während Attention-Layer bestimmen, welche Information relevant ist. Dies erklärt, warum FFNs die meisten Parameter haben (~2/3) und warum MoE-Modelle verschiedene Experten für verschiedene Wissensdomänen haben.

Architektur-Rollen im Transformer

Attention Layer (Router)

Funktion

Berechnet, welche Informationen relevant sind und wie sie kombiniert werden

Operation

Q·K^T → Softmax → Weighted Average von Values

Parameter

~1/3 der Transformer-Parameter

Metapher

"Routing-Netzwerk" - bestimmt welche Neuronen aktiv sein sollten

Feedforward Layer (Memory)

Funktion

Speichert faktisches Wissen, Vokabular, Konzept-Assoziationen

Operation

Position-weise: x → ReLU(xW₁+b₁) → (xW₂+b₂)

Parameter

~2/3 der Transformer-Parameter

Metapher

"Langzeitgedächtnis" - speichert gelernte Assoziationen und Fakten

Praktisches Beispiel: "Paris ist die Hauptstadt von Frankreich"

Input: "Paris"

Attention: Routet zu relevanten Kontexten (Länder, Geographie, Hauptstädte)
FFN: Hat gelernt: Paris_embedding → {land: Frankreich, typ: Hauptstadt}

Input: "What is the capital of France?"

Attention: Routet "France" Token zu gespeichertem "Paris" Wissen
FFN: Nutzt gelernte Assoziation um "Paris" zu generieren

Evidenz aus der Forschung

Beobachtung	Memory-Hypothese Interpretation	Implikationen
2/3 der Parameter in FFN	FFNs speichern das meiste Wissen	Kompression von Wissen pro Parameter wichtig
FFN ist position-weise	Jede Position kann unabhängig auf sein Memory zugreifen	Parallelisierung möglich
MoE hat spezialisierte Experten	Verschiedene Experten speichern verschiedene Domänen	Router muss richtige Domain wählen
Neuron als Konzept	Einzelne FFN-Neuronen kodieren Konzepte	Interpretierbarkeit möglich
Adapter-Module funktionieren	Kleine Parameter können Wissen "injizieren"	Effiziente Fine-Tuning möglich (LoRA)

Knowledge Neurons

Forschung zeigt, dass einzelne Neuronen im FFN Konzepte kodieren. Beispiel: Ein Neuron aktiviert sich bei allen Formen von "Paris", ein anderes bei allen Ländern.

Capacity Factor

MoE-Router braucht genug "Capacity" um verschiedene Neuronen zu aktivieren. Zu wenig Capacity = Information Loss, zu viel = Verschwendung.

Training Dynamics

Bei Pretraining speichert FFN Wissen. Bei Fine-Tuning (RLHF) wird vorwiegend das Routing (Attention) neu gelernt. FFN bleibt relativ stabil.

Scaling Laws

Wenn FFN-Parameter wachsen, wächst auch die "Kapazität" für Wissen. Deshalb braucht man sehr große FFNs für sehr großes Wissen. (d_ff = 4×d_model oder mehr)

LoRA & Adapter

LoRA funktioniert, weil es nur das "Routing" (Attention/Adapter-Gewichte) neu lernt, nicht die Basis-Wissen (FFN). Daher braucht es nur ~0.1% neue Parameter!

Zero-Shot Generalization

FFN-Memory ermöglicht Zero-Shot Learning: Das Modell kombiniert bekannte Konzepte auf neue Art, ohne die Memory zu ändern.

Mathematische Perspektive

Attention als Router:
attention_scores = Softmax(Q·K^T/√d_k)
output = attention_scores · V

FFN als Memory:
memory(x) = ReLU(x·W₁ + b₁)·W₂ + b₂

Zusammen:
y = Attention(x) + FFN(x) + x

Implikationen für Modell-Design

Für Dense Modelle

d_ff Größe

Je größer d_ff, desto mehr Wissen kann gespeichert werden. Standard: 4×d_model (GPT, BERT)

Parameter-Budget

Größere FFN → Besseres Wissen, weniger Attention-Köpfe

Für MoE Modelle

Expert Specialization

Verschiedene Experten speichern verschiedene Knowledge-Domänen

Router Training

Router muss lernen, welcher Expert für welches Token relevant ist