Label-Format Experiment

Format vs. Inhalt: Das Label-Experiment

Warum selbst zufällige Labels besser helfen als keine Labels – Die überraschende Erkenntnis von Min et al. (2022)

Format vs. Inhalt zeigt eine fundamentale Erkenntnis über ICL: Das Modell lernt nicht primär aus den Label-Zuordnungen, sondern aus dem Format der Beispiele. Selbst zufällige Labels helfen – solange das Eingabe-Ausgabe-Format klar ist.

📖 Lern-Kontext ▼

Verstehen, warum Labels weniger wichtig sind als Formatierung
Das Experiment von Min et al. (2022) nachvollziehen
Implikationen für Prompt-Design ableiten können

Schritt 4/4 In-Context Learning & Prompting

Nach ICL-Grundlagen (1/4), System Prompts (2/4) und Attention Distribution (3/4) untersuchen wir nun die Mechanismen hinter Format- vs. Inhalts-Lernen.

Diese Erkenntnis revolutioniert das Prompt-Engineering: Konsistentes Format ist wichtiger als perfekte Beispiele. Das erklärt auch, warum Few-Shot oft besser funktioniert als Zero-Shot – das Modell lernt das Antwortformat.

Format > Inhalt: Labels können zufällig sein, solange Format konsistent ist
Struktur-Signal: Beispiele definieren das erwartete Ausgabeformat
Praktische Implikation: Bei neuen Tasks reicht Format-Demonstration

📋

Format > Inhalt

Das Modell lernt primär das Format (Input → Label Struktur), nicht die Semantik. Zufällige Labels: 87%, Keine Labels: 60%. Format allein bringt +27 Punkte!

🎯

Korrekte Labels helfen nur 8% mehr

Korrekt (95%) vs. Zufällig (87%) = nur 8 Punkte Unterschied. Das zeigt: Semantische Korrektheit hat überraschend geringe Auswirkungen bei Few-Shot.

🔀

Invertierte Labels sind fast so gut wie zufällig

Invertiert (82%) vs. Zufällig (87%) – kaum Unterschied. Das Modell nutzt das Format, nicht die semantische Konsistenz der Labels selbst.

📊

Diminishing Returns nach 5-10 Beispielen

Die Genauigkeit steigt schnell bis ~5 Beispiele, dann flacht die Kurve ab. Mehr als 10 Beispiele bringen minimal Gewinn (Sättigung sichtbar).

🏗️

Strukturierte Prompts sind kritisch

Das Modell nutzt visuelle/syntaktische Strukturen (XML-Tags, Zeilenumbrüche, Indentation) zum Pattern Matching. Gleiche Struktur, andere Semantik = starke Performance.

⚠️

Größere Modelle sind weniger format-abhängig

Bei Modellen >100B sinkt der Random-Label-Vorteil (da sie besser verstehen). Kleine Modelle sind format-abhängig, große modelle können semantik extrapolieren.

Bedingung	Accuracy (Sentiment)	Accuracy (NER)	Accuracy (Topic)	Insight
Keine Labels	58%	62%	61%	Baseline ohne Struktur
Korrekte Labels	95%	93%	92%	Format + Semantik optimal
Zufällige Labels	87%	85%	86%	Format allein sehr hilfreich
Invertierte Labels	82%	80%	81%	Schwache semantische Nutzung

Bedingung

Accuracy (Sentiment)

Accuracy (NER)

Accuracy (Topic)

Insight

Keine Labels

58%

62%

61%

Baseline ohne Struktur

Korrekte Labels

95%

93%

92%

Format + Semantik optimal

Zufällige Labels

87%

85%

86%

Format allein sehr hilfreich

Invertierte Labels

82%

80%

81%

Schwache semantische Nutzung

Format vs. Inhalt: Das Label-Experiment

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways