
Problemy przetwarzania tekstu przez modele AI
Generatywne modele AI nie przetwarzają tekstu w taki sam sposób, jak ludzie. Zrozumienie ich wewnętrznych środowisk opartych na „tokenach” może wyjaśnić niektóre z ich dziwnych zachowań i ograniczeń.
Architektura transformatorów
Większość modeli, od małych, lokalnych jak Gemma, po wiodący w branży GPT-4 od OpenAI, opiera się na architekturze znanej jako transformator. Z powodu sposobu, w jaki transformatory tworzą skojarzenia między tekstem a innymi typami danych, nie mogą one przyjmować ani wypuszczać surowego tekstu bez ogromnej ilości mocy obliczeniowej.
Tokenizacja tekstu
Dzisiejsze modele transformatorowe działają z tekstem podzielonym na mniejsze części zwane tokenami, co nazywane jest tokenizacją. Tokeny mogą być słowami, sylabami, a nawet pojedynczymi znakami w słowach. To pozwala transformatorom przetwarzać więcej informacji, zanim osiągną górny limit zwany oknem kontekstowym.
Błędy w tokenizacji
Jednak tokenizacja może wprowadzać błędy. Niektóre tokeny mają dziwne odstępy, co może zakłócić działanie transformatora. Przykładowo, „once upon a time” może zostać zakodowane jako „once,” „upon,” „a,” „time,” podczas gdy „once upon a ” (z końcowym odstępem) jako „once,” „upon,” „a,” ” „. Zależnie od tego, jak model jest uruchamiany, wyniki mogą być zupełnie różne.
Tokenizery a wielkie litery
Tokenizery traktują również wielkie litery inaczej. „Hello” niekoniecznie jest tym samym co „HELLO”; „hello” zazwyczaj jest jednym tokenem, podczas gdy „HELLO” może być nawet trzema tokenami. To wyjaśnia, dlaczego wiele transformerów ma problem z dużymi literami.
Tokenizacja w innych językach
Tokenizacja stwarza dodatkowe problemy w językach innych niż angielski. Wiele metod tokenizacji zakłada, że spacja w zdaniu oznacza nowe słowo, co jest zgodne z językiem angielskim, ale niekoniecznie z chińskim, japońskim czy tajskim.
Badania Oxford 2023
Badanie z 2023 roku przeprowadzone przez Oxford wykazało, że ze względu na różnice w tokenizacji, przetwarzanie zadań w językach innych niż angielski może zająć transformatorom dwa razy więcej czasu. Użytkownicy mniej „tokenowo wydajnych” języków często doświadczają gorszej wydajności modeli i wyższych kosztów, ponieważ wiele firm AI nalicza opłaty za token.
Tokenizacja w systemach logograficznych
Tokenizery często traktują każdy znak w logograficznych systemach pisma, takich jak chiński, jako osobny token, co prowadzi do wysokich liczników tokenów. Podobnie jest z językami aglutynacyjnymi, gdzie słowa składają się z małych, znaczących elementów zwanych morfemami, jak w tureckim.
Analiza Google DeepMind
W 2023 roku badacz AI z Google DeepMind, Yennie Jun, przeprowadził analizę porównującą tokenizację różnych języków i jej wpływ na dalsze przetwarzanie. Badanie pokazało, że niektóre języki potrzebują nawet dziesięć razy więcej tokenów, aby uchwycić to samo znaczenie co w angielskim.
Tokenizacja a matematyka
Tokenizacja może również tłumaczyć, dlaczego modele AI są słabe w matematyce. Cyfry są rzadko tokenizowane konsekwentnie. Tokenizery mogą traktować „380” jako jeden token, ale „381” jako dwa, co niszczy relacje między cyframi i wyniki w równaniach.
Nowe podejścia do tokenizacji
Czy problemy związane z tokenizacją mogą zostać rozwiązane? Możliwe. Modele takie jak MambaByte, które pracują bezpośrednio z surowymi bajtami, mogą przetwarzać więcej danych bez karnej straty wydajności. Jednak te modele są wciąż na wczesnym etapie badań.