Llama 4 Architecture: Vergleiche Sequential Pipeline (Late Fusion) mit Joint Processing (Early Fusion) für besseres Cross-Modal Reasoning.
Schritt 5/5 in Kapitel 2 „Moderne Architekturvarianten"
Multimodale Erweiterung des Transformers. Early Fusion ist der architektonische Paradigmenwechsel für Vision+Language.
Llama 4, Gemini 3 nutzen Early Fusion. GPT-4V nutzte noch Late Fusion. Der Wechsel bringt +20-30% bessere Accuracy bei Visual QA und ermöglicht echtes Reasoning über Bilder.
| Aspekt | Late Fusion (Sequenziell) | Early Fusion (Llama 4) |
|---|---|---|
| Pipeline | Vision → Dense Vector → Text → LLM | Vision + Text → Interleaved → Unified Transformer |
| Cross-Modal Reasoning | Begrenzt (nur am Ende) | Durchgehend in allen Layers |
| Encoder | Separate Vision/Text Encoder | MetaCLIP-based Vision → Token Space |
| Kontext | 2K Vision Tokens + Text | Million+ Token Context (joint) |
| Information Loss | Hoch (Bottleneck beim Merge) | Minimal (direkte Token-Representation) |
| Reasoning Quality | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Compute Effizienz | Höher (separater Processing) | Unified Framework (optimiert) |