
Dominacja jednej odmiany języka angielskiego
Większość danych treningowych dla generatywnych modeli AI pochodzi z języka angielskiego, co nie dziwi, biorąc pod uwagę jego globalny zasięg i status lingua franca. Jednakże nie każdy angielski jest traktowany przez technologie równo – dominującą odmianą jest mainstream American English, czyli główny nurt amerykańskiego angielskiego. To właśnie na nim opierają się mechanizmy rozpoznawania mowy, autokorekty czy generowania tekstu.
Źródła dominacji językowej
Główna pozycja amerykańskiej odmiany angielskiego nie jest przypadkiem. Wynika z historycznej roli USA w rozwoju internetu i dominacji firm takich jak Google, Meta czy OpenAI. Produkty tych korporacji odzwierciedlają ich wewnętrzne normy językowe, a te skupiają się wokół językowego standardu z USA. Tym samym inne odmiany angielskiego są marginalizowane na poziomie algorytmicznym.
Monotonia w głosach sztucznej inteligencji
Technologie syntezy mowy i klonowania głosu rzadko uwzględniają różnorodność akcentów. Badania wykazują, że użytkownicy mówiący innymi odmianami angielskiego niż mainstream amerykański odczuwają frustrację z powodu braku reprezentacji ich akcentów. Systemy AI wydają się być projektowane „dla kogoś innego”, wykluczając użytkowników spoza dominującej normy językowej.
Język jako filtr dostępu
Badania Johna Baugha pokazują, że akcent ma wpływ na równość dostępu do usług i zasobów. W eksperymencie socjolingwistycznym, korzystanie z odmian afrykańsko-amerykańskich lub latynoskich ograniczało możliwości wynajmu mieszkań, w przeciwieństwie do używania mainstreamowego akcentu. Takie zjawiska pokazują, że językowa dominacja przekłada się na rzeczywiste nierówności społeczne.
Władza zaklęta w algorytmach
Modele AI są trenowane głównie na danych zdominowanych przez USA, co sprawia, że inne warianty językowe są często korygowane lub odrzucane jako błędne. Autokorekta, rozpoznawanie mowy czy narzędzia pisarskie nie rozpoznają często lokalnych struktur gramatycznych czy słownictwa. Algorytmy wzmacniają w ten sposób jedną normę językową kosztem pozostałych.
Globalne konsekwencje językowej selekcji
Gdy AI stosowane są globalnie, ich ograniczenia językowe prowadzą do wykluczenia. Błędy w rozpoznawaniu nigeryjskiego angielskiego przez wirtualnego nauczyciela, dyskryminacja indyjskich aplikacji o pracę przez systemy rekrutacyjne, czy błędna transkrypcja ustnych historii rdzennych Australijczyków — to przykłady realnych strat i niesprawiedliwości.
Mity o „poprawnym” angielskim
Nie istnieje jeden „dobry” angielski. Język ten występuje w wielu formach, zależnych od lokalnych społeczności, kultur i historii. Odmiany takie jak Aboriginal English, Indian English czy Singlish mają własne struktury i słownictwo, często wzbogacone o elementy z innych języków. Nie są one „złamanym” językiem, lecz równorzędnymi formami angielskiego.
Język jako dynamiczne zjawisko
Angielski nie jest językiem statycznym. Ewoluuje zgodnie z potrzebami jego użytkowników. Mimo to, w AI różnorodność traktowana jest jako zakłócenie, a nie jako wartość. Lokalne odmiany są często pomijane w procesach anotacji i ewaluacji modeli.
Monolingwalizm ukryty pod pozorem wielojęzyczności
Choć AI deklarują wsparcie wielu języków, w praktyce funkcjonują jako systemy monojęzyczne. Utrwalają dominację jednej odmiany językowej, ignorując różnorodność, która powinna stanowić ich fundament.
Potrzeba sprawiedliwości językowej
Zmiana technologii wymaga zmiany podejścia. Zamiast definiować, co jest „poprawne”, AI powinny uwzględniać wielość odmian języka. Kluczowe są tu inicjatywy społecznościowe, interdyscyplinarna współpraca i respektowanie lokalnych decyzji dotyczących digitalizacji języków.
Równość językowa jako cel rozwoju AI
Technologia powinna być dostosowywana do użytkowników, a nie odwrotnie. Celem nie jest „naprawa” języka, lecz tworzenie rozwiązań, które generują sprawiedliwe rezultaty. Tylko wtedy możliwe będzie budowanie systemów AI, które respektują językową różnorodność.