KAPITEL 8.2b · TOKENISIERUNG

Vokabular-Explorer

Durchsuche das BPE-Vokabular: Token-IDs nachschlagen, Text tokenisieren und häufigste Tokens entdecken

Der Vokabular-Explorer macht BPE-Tokenisierung greifbar: Durchsuche 50.000+ Tokens, sieh wie Text zerlegt wird, und verstehe warum "München" ein Token ist, aber "München's" zu drei Tokens wird.

📖 Lern-Kontext ▼

BPE-Vokabular praktisch erkunden
Token-zu-ID Mapping verstehen
Häufige vs. seltene Tokens unterscheiden

Schritt 4/5 Kapitel 8: Werkzeuge & Glossar

Embeddings & Tokens (4/5) – interaktives Werkzeug zum Verstehen von Tokenisierung.

Token-Kosten sind API-Kosten. Wer versteht, wie Tokenisierung funktioniert, kann Prompts optimieren und weiß, warum deutsche Texte mehr Tokens brauchen als englische.

Vocab-Size: 32K (Llama) bis 200K (GPT-4)
Englisch-Bias: Häufige englische Wörter = 1 Token
Subwords: Seltene Wörter werden zerlegt

Moderne LLMs verwenden Byte Pair Encoding (BPE) Vokabulare mit 50.000–128.000 Tokens. Jedes Token kann ein ganzes Wort, ein Teilwort oder einzelne Zeichen sein. Häufige Wörter sind einzelne Tokens, seltene Wörter werden in mehrere Sub-Tokens aufgeteilt.

100,000

Vokabular-Größe

~50%

Wort-Tokens

~40%

Subwort-Tokens

~10%

Zeichen/Spezial

Vokabular durchsuchen

Token-ID → Text

Token-ID eingeben

Text → Tokens

Text eingeben

Ergebnis

Gib eine Token-ID oder einen Text ein, um das Vokabular zu durchsuchen.

Häufigste Tokens

ID	Token	Typ	Häufigkeit

Vokabular-Explorer

Lernziele

Kontext: Wo sind wir?

Warum wichtig

Key Takeaways

Vokabular durchsuchen

Token-ID → Text

Text → Tokens

Ergebnis

Häufigste Tokens