Deterministyczne modele językowe przestają być teorią
Przez długi czas niedeterministyczność modeli językowych była traktowana jako naturalna cecha nowoczesnej AI. Zakładano, że różnice w wynikach przy identycznych zapytaniach wynikają głównie z równoległości GPU oraz złożonej architektury obliczeń. Coraz częściej wskazuje się jednak, że kluczowym źródłem problemu jest brak batch invariance, czyli sytuacja, w której wynik zapytania zależy od tego, z iloma innymi żądaniami został przetworzony w tym samym batchu.
Dlaczego batch invariance ma znaczenie
W systemach obsługujących modele językowe zapytania są często grupowane w dynamiczne batchy, aby zwiększyć wydajność GPU i przepustowość systemu. Jeśli implementacja nie jest batch-invariant, identyczne zapytanie może zwrócić inną odpowiedź tylko dlatego, że zostało przetworzone razem z innymi requestami. Problem ten pojawia się nawet przy ustawieniu temperature=0, co dla wielu firm oznacza poważne trudności w debugowaniu i testowaniu modeli.
vLLM wprowadza tryb batch invariant
W dokumentacji projektu vLLM funkcja Batch Invariance została opisana jako tryb pracy umożliwiający uzyskanie wyników niezależnych od rozmiaru batcha i kolejności zapytań. Celem rozwiązania jest przede wszystkim łatwiejsze debugowanie frameworka, stabilniejsze testowanie modeli oraz większa powtarzalność procesów reinforcement learning, gdzie identyczne rollouty mają kluczowe znaczenie dla ewaluacji.
Wymagania sprzętowe i sposób aktywacji
Tryb batch invariant znajduje się obecnie w fazie beta i wymaga kart GPU takich jak NVIDIA H100, H200, B100 lub B200, czyli architektur o compute capability 9.0 lub wyższym. Funkcja może zostać włączona poprzez ustawienie zmiennej środowiskowej VLLM_BATCH_INVARIANT=1. Pokazuje to, że deterministyczna inferencja zaczyna być traktowana jako element infrastruktury klasy enterprise, choć na razie pozostaje powiązana z najnowszym sprzętem.
PyTorch przyspiesza obliczenia attention
Równolegle rozwijana jest warstwa obliczeniowa modeli. W projekcie PyTorch zaprezentowano backend FlashAttention-4 dla systemu FlexAttention przeznaczonego dla architektur Hopper i Blackwell. Według twórców rozwiązanie zapewnia wzrost wydajności od około 1,2× do nawet 3,2× w obciążeniach compute-bound w porównaniu z wcześniejszą implementacją opartą o Triton.
Nowy etap infrastruktury AI
Przez wiele lat panowało przekonanie, że infrastruktura AI musi wybierać między wysoką wydajnością a deterministyczną kontrolą numeryczną. Najnowsze rozwiązania pokazują jednak, że oba cele mogą być realizowane jednocześnie. Jeśli systemy servingowe zaczynają zapewniać batch-invariant inferencję, a jednocześnie rozwijane są szybsze implementacje attention, oznacza to, że przewidywalność i wydajność przestają się wzajemnie wykluczać.
Problemy inżynierskie wynikające z niedeterministyczności
W praktyce niedeterministyczna inferencja utrudnia wiele procesów inżynierskich. Trudniej odtworzyć błędy zgłaszane przez użytkowników, trudniej przeprowadzać testy regresyjne oraz porównywać wyniki ewaluacji modeli. W środowiskach wykorzystujących reinforcement learning oraz pipeline’y ewaluacyjne brak powtarzalności może prowadzić do niejednoznacznych wyników eksperymentów.
Deterministyczny model to cecha całego stosu
Najważniejszy wniosek jest taki, że deterministyczność nie jest właściwością samego modelu. Zależy ona od całej infrastruktury: implementacji kernelów, sposobu batchowania requestów oraz schedulerów systemu servingowego. Dlatego samo ustawienie temperature=0 lub seed nie gwarantuje powtarzalności wyników, jeśli pozostałe elementy stosu pozostają niedeterministyczne.
Presja rynku na reproducibility
Coraz więcej projektów open source zaczyna traktować reproducibility jako wymóg produktowy. W ekosystemie pojawiają się prace nad deterministycznymi backendami attention, deterministic all-reduce dla tensor parallelism oraz dokumentacja trybów deterministycznych. To sygnał, że powtarzalność wyników staje się ważnym elementem infrastruktury AI, a nie jedynie akademickim eksperymentem.
Co oznacza to dla rynku AI
Najbardziej prawdopodobny scenariusz zakłada, że deterministyczna inferencja stanie się opcją premium dla zastosowań wymagających zgodności wyników. Dotyczy to przede wszystkim testów regresyjnych, ewaluacji modeli, pipeline’ów reinforcement learning oraz agentowych workflow w firmach. Koszt sprzętu nadal pozostaje wysoki, jednak kierunek rozwoju infrastruktury jest coraz bardziej jednoznaczny.
