Durchsuchbarer Vergleich der wichtigsten LLM-Evaluation-Benchmarks 2024-2025
| Model | Score | Release | Parameters | Typ |
|---|
American Invitational Mathematics Exam. 30 Probleme pro Jahr. Olympiad-level difficulty. Beste Indikator für echte Reasoning-Capability. GPT-4: 94%, Claude 4.5: 96%, DeepSeek-R1: 98%.
Neue Enterprise LLM Evaluation Platform. Fokus: Production-Readiness nicht nur Rohleistung. Bewertet: Reliability, Safety, Cost-Efficiency. Realistischere Scores als Toy-Benchmarks.
2025er Benchmark speziell für Test-Time Reasoning. Misst: Quality, Speed, Efficiency von Chain-of-Thought. Designed für GRPO/RL-trainierte Modelle. Claude 4.5, GPT-5.1, DeepSeek-R1 optimiert.
Reine logische Rätsel ohne Domain-Wissen. Testet Raw Reasoning ohne memorized Knowledge. Auch Benchmark für Consistency & Self-Correction über Iterationen.
Datenleakage ist Problem: Models trained auf Benchmark-Daten. Deshalb: neue Benchmarks 2024-2025 (ThinkBench, ELAIPBench) mit fresh data. Old benchmarks (ARC, MMLU) less informative jetzt.
Trend: Firmen erstellen Custom Benchmarks für ihre Use Cases (z.B. Legal Reasoning, Medical Diagnosis). Generic Benchmarks weniger relevant. Shift zu Domain-Specific Evaluation.