2024: Era der Hidden Reasoning

OpenAI o1 & DeepSeek-R1 zeigen: LLMs können intern komplex denken. Reasoning ist nicht "prompt engineering" sondern emergente Fähigkeit trainierbar via GRPO & RL.

2025: Era der Visible Thinking

Claude 4.5 Effort Parameter, GPT-5.1 Adaptive Thinking, Qwen3 Budget: Benutzer kontrolliert explizit Reasoning-Depth. Shift von Hidden zu User-Controlled.

Effort & Budget als UI-Primitive

Nicht mehr: "prompt X mehr CoT". Sondern: Slider von 1-10 Effort. Modelle selbst entscheiden, wie viel Tokens zum Denken nötig. Intuitivere API.

Sparse Attention Production-Ready

DeepSeek DSA (Dez 2025): 60% Cost ↓, 3.5× Speed ↑, 70% Memory ↓. Sparse ist nicht mehr Research — ist jetzt Standard für lange Kontexte (1M+).

Multimodal Early Fusion

Llama 4, Gemini 3: Vision + Text in gleicher Sequenz statt separaten Pipes. Cross-Modal Reasoning besser als Late Fusion. Unified Architecture gewinnt.

Dual-Mode Models sind Future

Ein Modell, zwei Modi: Fast (instant) + Deep (thinking). Benutzers wählt je nach Task. Efficient für einfache Fragen, Capable für komplexe. Beste Lösung.