📋
Format > Inhalt
Das Modell lernt primär das Format (Input → Label Struktur), nicht die Semantik. Zufällige Labels: 87%, Keine Labels: 60%. Format allein bringt +27 Punkte!
🎯
Korrekte Labels helfen nur 8% mehr
Korrekt (95%) vs. Zufällig (87%) = nur 8 Punkte Unterschied. Das zeigt: Semantische Korrektheit hat überraschend geringe Auswirkungen bei Few-Shot.
🔀
Invertierte Labels sind fast so gut wie zufällig
Invertiert (82%) vs. Zufällig (87%) – kaum Unterschied. Das Modell nutzt das Format, nicht die semantische Konsistenz der Labels selbst.
📊
Diminishing Returns nach 5-10 Beispielen
Die Genauigkeit steigt schnell bis ~5 Beispiele, dann flacht die Kurve ab. Mehr als 10 Beispiele bringen minimal Gewinn (Sättigung sichtbar).
🏗️
Strukturierte Prompts sind kritisch
Das Modell nutzt visuelle/syntaktische Strukturen (XML-Tags, Zeilenumbrüche, Indentation) zum Pattern Matching. Gleiche Struktur, andere Semantik = starke Performance.
⚠️
Größere Modelle sind weniger format-abhängig
Bei Modellen >100B sinkt der Random-Label-Vorteil (da sie besser verstehen). Kleine Modelle sind format-abhängig, große modelle können semantik extrapolieren.