Warum die Genauigkeit schnell steigt, aber nach 5-10 Beispielen ein Sättigungspunkt erreicht wird – eine Analyse des Scaling-Verhaltens
N-Shot Scaling zeigt ein überraschendes Plateau: Die Genauigkeit steigt schnell mit den ersten 5-10 Beispielen, dann aber kaum noch. Mehr Beispiele bedeuten nicht automatisch bessere Ergebnisse – das hat tiefgreifende praktische Konsequenzen.
Nach ICL-Grundlagen (1/4), System Prompts (2/4) und Attention Distribution (3/4) untersuchen wir nun das Scaling-Verhalten beim Few-Shot Learning.
Das Verständnis des Plateau-Effekts optimiert die Prompt-Länge und damit Kosten: Mehr als 5-10 Beispiele verbrauchen Token ohne proportionalen Nutzen. Diese Erkenntnis spart Budget und Context-Fenster.
| Task-Typ | Baseline | Optimal N | Accuracy @ Opt | Gain | Empfehlung |
|---|---|---|---|---|---|
| Einfach | 70% | 2 | 88% | +18 pp | 2-3 Examples, mehr bringt <1% Gewinn |
| Mittel | 60% | 5 | 85% | +25 pp | 5-7 Examples, Cost-Benefit sweet spot |
| Komplex | 45% | 10 | 75% | +30 pp | 8-12 Examples, über 12 marginal |
| Sehr komplex | 30% | 15 | 68% | +38 pp | Überdenke: Prompt-Engineering oder Fine-Tuning? |