Durchsuche das BPE-Vokabular: Token-IDs nachschlagen, Text tokenisieren und häufigste Tokens entdecken
Embeddings & Tokens (4/5) – interaktives Werkzeug zum Verstehen von Tokenisierung.
Token-Kosten sind API-Kosten. Wer versteht, wie Tokenisierung funktioniert, kann Prompts optimieren und weiß, warum deutsche Texte mehr Tokens brauchen als englische.
Moderne LLMs verwenden Byte Pair Encoding (BPE) Vokabulare mit 50.000–128.000 Tokens. Jedes Token kann ein ganzes Wort, ein Teilwort oder einzelne Zeichen sein. Häufige Wörter sind einzelne Tokens, seltene Wörter werden in mehrere Sub-Tokens aufgeteilt.
| ID | Token | Typ | Häufigkeit |
|---|