Beobachte Schritt für Schritt, wie der BPE-Algorithmus einen Text in Tokens zerlegt – die Grundlage jedes LLMs.
Tokenisierung ist die Eingangstür zu jedem LLM. Die hier erzeugten Token-IDs werden im nächsten Schritt (1.2 Embeddings) in kontinuierliche Vektoren umgewandelt, mit denen das Modell rechnen kann.
Die Wahl des Tokenizers beeinflusst direkt die Modell-Performance: Ein größeres Vokabular ermöglicht kompaktere Textdarstellungen (kürzere Sequenzen), erfordert aber mehr Parameter in der Embedding-Matrix. Moderne Modelle wie Llama 3 (128K Tokens) und GPT-4 (~100K Tokens) haben diesen Trade-off sorgfältig optimiert.
Byte Pair Encoding startet mit einzelnen Zeichen und fusioniert
iterativ die häufigsten benachbarten Paare zu neuen Tokens.
Im Beispiel aaabdaaabac wird zuerst aa → Z,
dann ab → Y, usw. fusioniert, bis die gewünschte
Vokabulargröße erreicht ist.