Problemy przetwarzania tekstu przez modele AI

Generatywne modele AI nie przetwarzają tekstu w taki sam sposób, jak ludzie. Zrozumienie ich wewnętrznych środowisk opartych na „tokenach” może wyjaśnić niektóre z ich dziwnych zachowań i ograniczeń.

Architektura transformatorów

Większość modeli, od małych, lokalnych jak Gemma, po wiodący w branży GPT-4 od OpenAI, opiera się na architekturze znanej jako transformator. Z powodu sposobu, w jaki transformatory tworzą skojarzenia między tekstem a innymi typami danych, nie mogą one przyjmować ani wypuszczać surowego tekstu bez ogromnej ilości mocy obliczeniowej.

Tokenizacja tekstu

Dzisiejsze modele transformatorowe działają z tekstem podzielonym na mniejsze części zwane tokenami, co nazywane jest tokenizacją. Tokeny mogą być słowami, sylabami, a nawet pojedynczymi znakami w słowach. To pozwala transformatorom przetwarzać więcej informacji, zanim osiągną górny limit zwany oknem kontekstowym.

Błędy w tokenizacji

Jednak tokenizacja może wprowadzać błędy. Niektóre tokeny mają dziwne odstępy, co może zakłócić działanie transformatora. Przykładowo, „once upon a time” może zostać zakodowane jako „once,” „upon,” „a,” „time,” podczas gdy „once upon a ” (z końcowym odstępem) jako „once,” „upon,” „a,” ” „. Zależnie od tego, jak model jest uruchamiany, wyniki mogą być zupełnie różne.

Tokenizery a wielkie litery

Tokenizery traktują również wielkie litery inaczej. „Hello” niekoniecznie jest tym samym co „HELLO”; „hello” zazwyczaj jest jednym tokenem, podczas gdy „HELLO” może być nawet trzema tokenami. To wyjaśnia, dlaczego wiele transformerów ma problem z dużymi literami.

Tokenizacja w innych językach

Tokenizacja stwarza dodatkowe problemy w językach innych niż angielski. Wiele metod tokenizacji zakłada, że spacja w zdaniu oznacza nowe słowo, co jest zgodne z językiem angielskim, ale niekoniecznie z chińskim, japońskim czy tajskim.

Badania Oxford 2023

Badanie z 2023 roku przeprowadzone przez Oxford wykazało, że ze względu na różnice w tokenizacji, przetwarzanie zadań w językach innych niż angielski może zająć transformatorom dwa razy więcej czasu. Użytkownicy mniej „tokenowo wydajnych” języków często doświadczają gorszej wydajności modeli i wyższych kosztów, ponieważ wiele firm AI nalicza opłaty za token.

Tokenizacja w systemach logograficznych

Tokenizery często traktują każdy znak w logograficznych systemach pisma, takich jak chiński, jako osobny token, co prowadzi do wysokich liczników tokenów. Podobnie jest z językami aglutynacyjnymi, gdzie słowa składają się z małych, znaczących elementów zwanych morfemami, jak w tureckim.

Analiza Google DeepMind

W 2023 roku badacz AI z Google DeepMind, Yennie Jun, przeprowadził analizę porównującą tokenizację różnych języków i jej wpływ na dalsze przetwarzanie. Badanie pokazało, że niektóre języki potrzebują nawet dziesięć razy więcej tokenów, aby uchwycić to samo znaczenie co w angielskim.

Tokenizacja a matematyka

Tokenizacja może również tłumaczyć, dlaczego modele AI są słabe w matematyce. Cyfry są rzadko tokenizowane konsekwentnie. Tokenizery mogą traktować „380” jako jeden token, ale „381” jako dwa, co niszczy relacje między cyframi i wyniki w równaniach.

Nowe podejścia do tokenizacji

Czy problemy związane z tokenizacją mogą zostać rozwiązane? Możliwe. Modele takie jak MambaByte, które pracują bezpośrednio z surowymi bajtami, mogą przetwarzać więcej danych bez karnej straty wydajności. Jednak te modele są wciąż na wczesnym etapie badań.

Najprawdopodobniej kluczem do rozwiązania problemów tokenizacji będą nowe architektury modeli. Jak mówi Sheridan Feucht, modele powinny bezpośrednio analizować znaki bez narzucania tokenizacji, choć obecnie jest to niemożliwe ze względu na ograniczenia obliczeniowe transformatorów.

Tags:ai, modele, przyszłość, rozwój, sztuczna inteligencja, tokeny, tokeny ai

Google DeepMind przyspiesza trening AI

Robotyka z GenAI we współczesnym świecie

Tokenizacja a wydajność modeli AI