Warum Chain-of-Thought nur bei größeren Modellen funktioniert: Eine kritische Schwelle bei ~100 Milliarden Parametern
Emergenz von CoT: Chain-of-Thought Prompting zeigt eine kritische Schwelle — erst ab ~100B Parametern übertrifft CoT die Direct-Answer-Methode. Kleinere Modelle profitieren kaum oder werden sogar schlechter.
Ergänzt die CoT-Demo mit der wichtigen Einsicht: Nicht jedes Modell profitiert von CoT.
Bei kleinen Modellen (<10B) kann CoT die Performance sogar verschlechtern — die Reasoning-Kette enthält Fehler, die sich fortpflanzen. Die Wahl der Prompting-Strategie hängt von der Modellgröße ab.
Aus der Originalarbeit "Emergent Abilities of Large Language Models". Die Tabelle zeigt CoT-Accuracy auf verschiedenen Benchmarks und Modellgrößen.
| Modell & Größe | MATH (Ohne CoT) | MATH (Mit CoT) | CoT Gewinn | Effektiv? |
|---|---|---|---|---|
| PaLM 8B | 2% | 2% | +0% | ❌ Nein |
| PaLM 62B | 4% | 4% | +0% | ❌ Nein |
| PaLM 540B | 8% | 56% | +48% | ✅ Ja! |
| GPT-3 175B | 17% | 71% | +54% | ✅ Ja! |