5
Genauigkeit nach Label-Variante
Korrekte Labels
Zufällige Labels
Invertierte Labels
Keine Labels
Genauigkeit vs. #Beispiele
Fig. 1 | Selbst zufällige Labels (orange) helfen dem Modell besser (87% genau) als gar keine Labels (60%). Das beweist: Format und Struktur sind wichtiger als Inhalt. Investierte Labels (lila) zeigen, dass Semantik eine Rolle spielt, aber Format überwiegt.
Beispiele (aktuelles Experiment)
📋
Format > Inhalt
Das Modell lernt primär das Format (Input → Label Struktur), nicht die Semantik. Zufällige Labels: 87%, Keine Labels: 60%. Format allein bringt +27 Punkte!
🎯
Korrekte Labels helfen nur 8% mehr
Korrekt (95%) vs. Zufällig (87%) = nur 8 Punkte Unterschied. Das zeigt: Semantische Korrektheit hat überraschend geringe Auswirkungen bei Few-Shot.
🔀
Invertierte Labels sind fast so gut wie zufällig
Invertiert (82%) vs. Zufällig (87%) – kaum Unterschied. Das Modell nutzt das Format, nicht die semantische Konsistenz der Labels selbst.
📊
Diminishing Returns nach 5-10 Beispielen
Die Genauigkeit steigt schnell bis ~5 Beispiele, dann flacht die Kurve ab. Mehr als 10 Beispiele bringen minimal Gewinn (Sättigung sichtbar).
🏗️
Strukturierte Prompts sind kritisch
Das Modell nutzt visuelle/syntaktische Strukturen (XML-Tags, Zeilenumbrüche, Indentation) zum Pattern Matching. Gleiche Struktur, andere Semantik = starke Performance.
⚠️
Größere Modelle sind weniger format-abhängig
Bei Modellen >100B sinkt der Random-Label-Vorteil (da sie besser verstehen). Kleine Modelle sind format-abhängig, große modelle können semantik extrapolieren.
Bedingung Accuracy (Sentiment) Accuracy (NER) Accuracy (Topic) Insight
Keine Labels 58% 62% 61% Baseline ohne Struktur
Korrekte Labels 95% 93% 92% Format + Semantik optimal
Zufällige Labels 87% 85% 86% Format allein sehr hilfreich
Invertierte Labels 82% 80% 81% Schwache semantische Nutzung