Benchmark Evolution Timeline

Wie Modell-Performance von 2017 bis 2025 exponentiell gewachsen ist – von Transformer bis o3 über alle wichtigen Benchmarks

Die Benchmark-Evolution dokumentiert den rasanten Fortschritt von LLMs: Von 2017 bis 2025 stiegen MMLU-Scores von unter 30% auf über 90%. Diese Timeline zeigt die Meilensteine und erklärt, warum Benchmarks ständig angepasst werden müssen.

📖 Lern-Kontext ▼

Die wichtigsten LLM-Benchmarks kennenlernen
Den historischen Fortschritt einordnen können
Benchmark-Sättigung verstehen

Schritt 1/2 Trends & Zukunft

Scaling & Komplexität (1/2) dokumentiert den Fortschritt, bevor wir emergente Fähigkeiten (2/2) untersuchen.

Benchmarks sind das Maß für LLM-Fortschritt. Aber: Wenn Modelle 90%+ erreichen, brauchen wir neue, härtere Tests. Diese Dynamik prägt die Forschung.

Exponentiell: MMLU von 30% → 90% in 5 Jahren
Sättigung: Alte Benchmarks werden zu einfach
Neue Tests: AIME, ELAIPBench, JustLogic für härtere Aufgaben

Modell	Release	Parameter	MMLU	ARC	Math	Besonderheit
Transformer	2017	-	-	-	-	Architektur-Basis
BERT	2018	340M	77.3%	64.6%	-	Encoder-Only
GPT-3 175B	2020	175B	54.9%	51.4%	2%	In-Context Learning
LLaMA 2 70B	2023	70B	63.9%	68.2%	28.7%	Open-Source
GPT-4	2023	~1.8T	86.4%	92.3%	49.9%	MoE, Multimodal
Claude 3.5	2024	~175B	88.3%	94.2%	58%	Constitutional AI
Llama 3.1 405B	2024	405B	85.9%	92.3%	53.3%	Dense, Open
o3 (April 2025)	2025	?	92.3%	96.1%	96.4%	Test-Time Compute

Modell

Release

Parameter

MMLU

ARC

Math

Besonderheit

Transformer

2017

Architektur-Basis

BERT

2018

340M

77.3%

64.6%

Encoder-Only

GPT-3 175B

2020

175B

54.9%

51.4%

In-Context Learning

LLaMA 2 70B

2023

70B

63.9%

68.2%

28.7%

Open-Source

GPT-4

2023

~1.8T

86.4%

92.3%

49.9%

MoE, Multimodal

Claude 3.5

2024

~175B

88.3%

94.2%

58%

Constitutional AI

Llama 3.1 405B

2024

405B

85.9%

92.3%

53.3%

Dense, Open

o3 (April 2025)

2025

92.3%

96.1%

96.4%

Test-Time Compute

📈

Exponentielles Wachstum 2017-2023

MMLU wuchs von ~50% (GPT-3) auf 86% (GPT-4) in 3 Jahren. Log-Plot zeigt Power-Law: ~13% MMLU-Gain pro Doubling der Parameter.

⏸️

Knowledge-Plateau bei 90%

Claude 3.5: 88%, o3: 92%. MMLU scheint bei 90-95% zu sättigen. Weitere Verbesserungen brauchen neue Metrics oder Reasoning.

🧠

Reasoning-Modelle sprengen Math

GPT-4: 49.9% Math. o3: 96.4%. Nicht durch Parameter, sondern durch Test-Time Compute (RL + Verification). Neuer Trend 2025.

🔓

Open-Source schließt auf

Llama 2 70B (2023) vs GPT-4 großer Gap. Llama 3.1 405B (2024) fast gleichauf (85.9% vs 86.4%). Commodity Hardware möglich.

💎

Smaller ≠ Worse mehr

Claude 3.5 (~175B): 88.3% MMLU. Llama 405B: 85.9%. Cleveres Design schlägt Raw Parameter in 2024.

🚀

Nächste Frontier: Reasoning

o1/o3 zeigen: Test-Time Compute ist neue Skalierungs-Achse. MMLU vielleicht gesättigt, aber Math/Code/Reasoning explodieren weiter.

Benchmark Evolution Timeline

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways