Early Fusion vs. Late Fusion: Wie Claude 4.5, Llama 4, und Gemini 3 Text- und Vision-Tokens gemeinsam im LLM verarbeiten für echte Cross-Modal Reasoning.
Traditionelle Multimodal-Modelle verarbeiten Vision und Text sequenziell: Bild-Encoder → Feature-Vektor → LLM → Text. Early Fusion bricht dieses Paradigma: Vision- und Text-Tokens werden gemeinsam im LLM verarbeitet, ermöglichend echte Cross-Modal Aufmerksamkeit.
Tokens werden interleaved verarbeitet:
↓ Gemeinsame Attention & FFN Layer ↓
Schlüssel: Vision-Tokens erhalten Attention zu Text-Tokens und umgekehrt. Keine speziellen Cross-Modal-Layer nötig.
Echte Aufmerksamkeit zwischen allen Modalitäten. Das Modell versteht räumliche Beziehungen zwischen Text und Bild nativ.
Single-Pass statt separater Encoder. 2-3× Latency-Reduktion verglichen mit Late Fusion.
Effiziente Vision-Tokenisierung + Adaptive Sparsity. 1M Context praktisch möglich.
Keine speziellen Cross-Modal-Layer. Alle Information durch gleiche Attention. Elegant + Powerful.
Claude 4.5 > GPT-4o. Early Fusion skaliert besser mit Model-Größe.
Text + Image + Audio = Single Token Stream. Full Multimedia Reasoning nächstes Jahr.