Few-Shot Scaling Plateau

N-Shot Scaling und das Plateau-Phänomen

Warum die Genauigkeit schnell steigt, aber nach 5-10 Beispielen ein Sättigungspunkt erreicht wird – eine Analyse des Scaling-Verhaltens

N-Shot Scaling zeigt ein überraschendes Plateau: Die Genauigkeit steigt schnell mit den ersten 5-10 Beispielen, dann aber kaum noch. Mehr Beispiele bedeuten nicht automatisch bessere Ergebnisse – das hat tiefgreifende praktische Konsequenzen.

📖 Lern-Kontext ▼

Das Plateau-Phänomen beim Few-Shot Learning verstehen
Die optimale Anzahl von Beispielen abschätzen können
Diminishing Returns beim N-Shot Scaling erkennen

Schritt 4/4 In-Context Learning & Prompting

Nach ICL-Grundlagen (1/4), System Prompts (2/4) und Attention Distribution (3/4) untersuchen wir nun das Scaling-Verhalten beim Few-Shot Learning.

Das Verständnis des Plateau-Effekts optimiert die Prompt-Länge und damit Kosten: Mehr als 5-10 Beispiele verbrauchen Token ohne proportionalen Nutzen. Diese Erkenntnis spart Budget und Context-Fenster.

Schneller Anstieg: 0→5 Beispiele bringen größten Gewinn
Plateau ab ~10: Danach marginale Verbesserungen
Praktisch: 5-10 Beispiele sind meist optimal für Kosten/Nutzen

📉

Plateau nach 5-10 Beispielen

Die Gewinn-Kurve folgt: schnell am Anfang → graduelles Abflachen → Stagnation. Nach 10 Beispielen ist der Marginal Gain oft <1% pro zusätzliches Beispiel.

⏱️

Task-Schwierigkeit bestimmt Plateau

Einfache Tasks: Plateau bei 2-3 Examples. Mittlere: bei 5-7. Komplexe: bei 10-15. Die Komplexität der Task limitiert, wie viel das Modell aus Examples lernen kann.

💰

Token-Kosten überwiegen Gains

15+ Beispiele kosten ~1500 zusätzliche Tokens mit Latenz-Impakt. Der Accuracy-Gewinn ist dann minimal. Optimal: 5-10 Examples basierend auf Task-Komplexität.

🎯

Format ist früh, Semantik ist spät

Beispiel 1-2: Modell lernt Format. Beispiel 3-5: Semantische Muster. Beispiel 6+: Nuancen. Aber das Sättigungs-Threshold ist durch Task Natur/Komplexität vorgegeben.

📊

Power-Law Skalierung

Accuracy folgt Power-Law: A(n) = A_∞ - c·n^(-α) wobei α≈0.4-0.6. Das erklärt das Plateau: Exponent ist klein, Gewinn wird exponentiell schneller klein.

🚀

Größere Modelle zeigen flacheres Plateau

70B Modelle: Plateau bei 3-5 Examples. 7B Modelle: Plateau bei 8-12. Größere Modelle haben bessere Prior-Wissen, brauchen weniger Struktur-Definition.

Task-Typ	Baseline	Optimal N	Accuracy @ Opt	Gain	Empfehlung
Einfach	70%	2	88%	+18 pp	2-3 Examples, mehr bringt <1% Gewinn
Mittel	60%	5	85%	+25 pp	5-7 Examples, Cost-Benefit sweet spot
Komplex	45%	10	75%	+30 pp	8-12 Examples, über 12 marginal
Sehr komplex	30%	15	68%	+38 pp	Überdenke: Prompt-Engineering oder Fine-Tuning?

Task-Typ

Baseline

Optimal N

Accuracy @ Opt

Gain

Empfehlung

Einfach

70%

88%

+18 pp

2-3 Examples, mehr bringt <1% Gewinn

Mittel

60%

85%

+25 pp

5-7 Examples, Cost-Benefit sweet spot

Komplex

45%

75%

+30 pp

8-12 Examples, über 12 marginal

Sehr komplex

30%

68%

+38 pp

Überdenke: Prompt-Engineering oder Fine-Tuning?

N-Shot Scaling und das Plateau-Phänomen

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways