Late Fusion (Sequential)

Vision Encoder
Text Tokens
LLM (getrennte Verarbeitung)

Problem: Vision und Text werden sequenziell verarbeitet. Vision-Informationen können nicht direkt in Text-Attention eingebunden werden. Resultat: Schwache Verknüpfung zwischen Modalitäten.

Early Fusion (Interleaved)

[Text]
[Img]
[Text]
[Img]
[Text]
Token positions [T1] [V1] [T2] [V2] [T3] [V3] Cross-modale Attention (bidirektional)

Vorteil: Joint Processing ermöglicht direkte cross-modale Kommunikation. Text-Queries können Vision-Tokens direkt abfragen und umgekehrt.

🔗
Direct Cross-Modal Reasoning

Early Fusion erlaubt dem Modell, Text- und Vision-Informationen im gleichen Attention-Raum zu verarbeiten. Text-Tokens können direkt Vision-Features abfragen, ohne externe Fusion-Schicht.

🎯
Vision-grounded Text Understanding

Wenn Text sagt „das Bild zeigt X", kann das Modell sofort Vision-Tokens prüfen. Keine Umwege über separate Encoder. Resultat: +20-30% bessere Accuracy bei Visual QA Tasks.

Effizienzgewinn durch Sharing

Transformer Blocks werden für alle Modalitäten geteilt. Statt zwei separate Encoder (Vision + Text) gibt es einen unified Encoder. Spart ~40% Parameterbedarf.

📊
Modell-Familie Support (2025)

Llama 4, Qwen 3, Gemini 3 nutzen Early Fusion. DeepSeek-V3 bleibt bei Late Fusion, verliert aber Performance bei komplexen Reasoning Tasks. Industry consensus: Early Fusion wird Standard.

🚀
Skalierbarkeit

Interleaved Context ermöglicht Multi-Image Szenarien. 3-5 Bilder können nahtlos mit Text gemischt werden, ohne Attention-Overhead. Long Context (1M tokens) wird mit mehreren Bildern praktikabel.

📈
Performance Gains

Benchmark Results: MMVP +8%, MMBench +12%, ChartQA +15%. Der größte Gewinn bei Reasoning-Tasks (Diagramme verstehen, Relationen erkennen). Pure Image Recognition profitiert weniger.