Forschungsperspektive: Wie Feedforward Networks faktisches Wissen speichern, während Attention-Layer Information routet
Nach neuester Forschung haben Feedforward Networks (FFNs) eine speicher-ähnliche Rolle in LLMs. Sie speichern faktisches Wissen und Assoziationen, während Attention-Layer bestimmen, welche Information relevant ist. Dies erklärt, warum FFNs die meisten Parameter haben (~2/3) und warum MoE-Modelle verschiedene Experten für verschiedene Wissensdomänen haben.
| Beobachtung | Memory-Hypothese Interpretation | Implikationen |
|---|---|---|
| 2/3 der Parameter in FFN | FFNs speichern das meiste Wissen | Kompression von Wissen pro Parameter wichtig |
| FFN ist position-weise | Jede Position kann unabhängig auf sein Memory zugreifen | Parallelisierung möglich |
| MoE hat spezialisierte Experten | Verschiedene Experten speichern verschiedene Domänen | Router muss richtige Domain wählen |
| Neuron als Konzept | Einzelne FFN-Neuronen kodieren Konzepte | Interpretierbarkeit möglich |
| Adapter-Module funktionieren | Kleine Parameter können Wissen "injizieren" | Effiziente Fine-Tuning möglich (LoRA) |
Forschung zeigt, dass einzelne Neuronen im FFN Konzepte kodieren. Beispiel: Ein Neuron aktiviert sich bei allen Formen von "Paris", ein anderes bei allen Ländern.
MoE-Router braucht genug "Capacity" um verschiedene Neuronen zu aktivieren. Zu wenig Capacity = Information Loss, zu viel = Verschwendung.
Bei Pretraining speichert FFN Wissen. Bei Fine-Tuning (RLHF) wird vorwiegend das Routing (Attention) neu gelernt. FFN bleibt relativ stabil.
Wenn FFN-Parameter wachsen, wächst auch die "Kapazität" für Wissen. Deshalb braucht man sehr große FFNs für sehr großes Wissen. (d_ff = 4×d_model oder mehr)
LoRA funktioniert, weil es nur das "Routing" (Attention/Adapter-Gewichte) neu lernt, nicht die Basis-Wissen (FFN). Daher braucht es nur ~0.1% neue Parameter!
FFN-Memory ermöglicht Zero-Shot Learning: Das Modell kombiniert bekannte Konzepte auf neue Art, ohne die Memory zu ändern.