Wie Early Fusion durch Interleaving von Text- und Vision-Tokens cross-modale Attention ermöglicht.
Problem: Vision und Text werden sequenziell verarbeitet. Vision-Informationen können nicht direkt in Text-Attention eingebunden werden. Resultat: Schwache Verknüpfung zwischen Modalitäten.
Vorteil: Joint Processing ermöglicht direkte cross-modale Kommunikation. Text-Queries können Vision-Tokens direkt abfragen und umgekehrt.
Early Fusion erlaubt dem Modell, Text- und Vision-Informationen im gleichen Attention-Raum zu verarbeiten. Text-Tokens können direkt Vision-Features abfragen, ohne externe Fusion-Schicht.
Wenn Text sagt „das Bild zeigt X", kann das Modell sofort Vision-Tokens prüfen. Keine Umwege über separate Encoder. Resultat: +20-30% bessere Accuracy bei Visual QA Tasks.
Transformer Blocks werden für alle Modalitäten geteilt. Statt zwei separate Encoder (Vision + Text) gibt es einen unified Encoder. Spart ~40% Parameterbedarf.
Llama 4, Qwen 3, Gemini 3 nutzen Early Fusion. DeepSeek-V3 bleibt bei Late Fusion, verliert aber Performance bei komplexen Reasoning Tasks. Industry consensus: Early Fusion wird Standard.
Interleaved Context ermöglicht Multi-Image Szenarien. 3-5 Bilder können nahtlos mit Text gemischt werden, ohne Attention-Overhead. Long Context (1M tokens) wird mit mehreren Bildern praktikabel.
Benchmark Results: MMVP +8%, MMBench +12%, ChartQA +15%. Der größte Gewinn bei Reasoning-Tasks (Diagramme verstehen, Relationen erkennen). Pure Image Recognition profitiert weniger.