Modellgröße vs CoT-Effekt

Warum Chain-of-Thought nur bei größeren Modellen funktioniert: Eine kritische Schwelle bei ~100 Milliarden Parametern

Emergenz von CoT: Chain-of-Thought Prompting zeigt eine kritische Schwelle — erst ab ~100B Parametern übertrifft CoT die Direct-Answer-Methode. Kleinere Modelle profitieren kaum oder werden sogar schlechter.

📖 Lern-Kontext ▼

Emergente Fähigkeiten bei LLMs verstehen
Die kritische Schwelle für CoT kennen
Inverse Scaling bei kleinen Modellen erkennen

Schritt 1/5 Reasoning & Test-Time Compute

Ergänzt die CoT-Demo mit der wichtigen Einsicht: Nicht jedes Modell profitiert von CoT.

Bei kleinen Modellen (<10B) kann CoT die Performance sogar verschlechtern — die Reasoning-Kette enthält Fehler, die sich fortpflanzen. Die Wahl der Prompting-Strategie hängt von der Modellgröße ab.

~100B Schwelle: CoT emergiert erst bei großen Modellen
Inverse Scaling: Kleine Modelle werden durch CoT schlechter
Task-abhängig: Schwierigkeit der Aufgabe beeinflusst die Schwelle

Fig. 1 | Chain-of-Thought Effekt nach Modellgröße. Zwei Linien: Mit CoT (blau) und Ohne CoT (grau). Die Kurven divergieren erst bei ~100B Parametern. Dunkelgrau markiert die effektive Schwelle.

⚠️ Die kritische Schwelle

Chain-of-Thought zeigt signifikanten Effekt ab einer Modellgröße von etwa 100 Milliarden Parametern. Kleinere Modelle produzieren unverlässliche oder sogar irreführende Reasoning-Schritte. Dies wird oft als "Emergenz" von Reasoning-Fähigkeiten beschrieben.

Warum funktioniert CoT nur bei großen Modellen?

Komplexe Reasoning benötigt Kapazität: Um Zwischenschritte zu generieren und diese dann für die Finale Antwort zu nutzen, braucht das Modell genug Parameter um komplexe Logik zu repräsentieren. Kleine Modelle haben nicht genug "Speicher" für mehrstufiges Reasoning.

Phase-Change bei Scale: Wei et al. (2022) zeigten, dass viele Fähigkeiten (insbesondere Reasoning) in einem nicht-linearen "Phase-Change" bei bestimmter Modellgröße emergieren. CoT ist das paradigmatische Beispiel dieser Emergenz.

Datenqualität ist sekundär: Kleine Modelle profitieren NICHT von CoT, selbst wenn die Trainings-Daten CoT-Beispiele enthalten. Die Modelle können das Pattern einfach nicht internalisieren. Größe ist die primäre Variable.

Lokale vs Global Reasoning: Kleine Modelle können lokale Patterns (nächster Token) vorhersagen. Sie können aber nicht "global" planen: Schritt 1 → Schritt 2 → Schritt 3 → Lösung. Dies erfordert hierarchisches Reasoning.

Fine-Tuning hilft nicht: Man kann kleinere Modelle mit CoT-Daten fine-tunen, aber sie werden nicht signifikant besser. Sie werden nur "besser darin, CoT-Strings auszuschreiben" – aber die tatsächliche Reasoning-Qualität bleibt niedrig.

Implikation für Praktiker: Für kleine Modelle (< 50B) sollte man auf CoT verzichten und stattdessen auf direktes Few-Shot-Learning, Template-basierte Prompts oder Retrieval fokussieren. CoT ist Verschwendung von Context-Token.

Empirische Daten: Wei et al. (2022)

Aus der Originalarbeit "Emergent Abilities of Large Language Models". Die Tabelle zeigt CoT-Accuracy auf verschiedenen Benchmarks und Modellgrößen.

Modell & Größe	MATH (Ohne CoT)	MATH (Mit CoT)	CoT Gewinn	Effektiv?
PaLM 8B	2%	2%	+0%	❌ Nein
PaLM 62B	4%	4%	+0%	❌ Nein
PaLM 540B	8%	56%	+48%	✅ Ja!
GPT-3 175B	17%	71%	+54%	✅ Ja!

Praktische Implikationen

→

Für 7B/13B Modelle (z.B. Llama): CoT wird nicht empfohlen. Nutze stattdessen direkte Prompts, Few-Shot Examples in kurzer Form, oder spezialisierte Fine-Tuning.

→

Für 70B Modelle (z.B. Llama 2/3 70B): CoT kann helfen, aber nicht garantiert. Experimentiere und miss. Oft hilft strukturiertes Prompting (XML-Tags, Template) mehr.

→

Für 100B+ Modelle (GPT-4, Claude 3): CoT ist sehr effektiv. "Let's think step by step" ist eine sichere, zuverlässige Technik für komplexe Aufgaben.

→

Test-Time Compute: Statt CoT bei kleinen Modellen, nutze parallel samples (Best-of-N) oder andere Test-Time Techniken. Diese sind modellgröße-agnostisch.

Modellgröße vs CoT-Effekt

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Warum funktioniert CoT nur bei großen Modellen?

Empirische Daten: Wei et al. (2022)

Praktische Implikationen