Nowa pozycja w rodzinie Claude

Claude Sonnet 5 został udostępniony przez Anthropic jako mocniejszy następca Sonnet 4.6, przeznaczony przede wszystkim do programowania agentowego i wieloetapowej pracy z narzędziami. Model pojawił się również w Cursor IDE, gdzie może samodzielnie analizować repozytorium, planować działania, korzystać z terminala, uruchamiać testy oraz poprawiać wcześniejsze rozwiązania. Nie oznacza to jednak, że powinien automatycznie zastąpić Auto albo Composer 2.5. Wyniki CursorBench pokazują wyraźny wzrost skuteczności względem poprzedniej generacji, ale jednocześnie znacznie wyższy koszt niż w przypadku modelu stworzonego bezpośrednio przez Cursor.

Rozbudowana oferta modeli Anthropic

Sonnet 5 zajmuje środkowe miejsce pomiędzy szybkimi modelami a najbardziej zaawansowanymi rozwiązaniami agentowymi. Model oferuje okno kontekstu wynoszące milion tokenów, maksymalną odpowiedź do 128 tysięcy tokenów oraz standardową cenę API na poziomie 3 USD za wejście i 15 USD za wyjście za milion tokenów. Wyżej pozycjonowane są Opus 4.8 i Fable 5, natomiast Haiku 4.5 pozostaje rozwiązaniem przeznaczonym do prostszych i szybszych zadań. W aktualnej ofercie znajduje się także Mythos 5, czyli specjalny wariant Fable 5 z ograniczonymi zabezpieczeniami dotyczącymi cyberbezpieczeństwa. Mythos 5 nie jest przeznaczony do powszechnego użycia i pozostaje dostępny wyłącznie dla zatwierdzonych organizacji.

Większa samodzielność podczas pracy

Najważniejsza zmiana nie sprowadza się do jakości pojedynczych odpowiedzi. Sonnet 5 został zoptymalizowany pod samodzielne wykonywanie długich zadań obejmujących analizę wielu plików, planowanie kolejnych etapów, wywoływanie narzędzi, testowanie oraz poprawianie implementacji. Wcześniejsze modele Sonnet często prawidłowo rozpoczynały zadanie, ale kończyły pracę po częściowej zmianie albo usuwały jedynie widoczny objaw problemu. Nowa generacja ma częściej prowadzić zadanie aż do działającego rezultatu. W Cursor IDE szczególne znaczenie może to mieć podczas trudnego debugowania, migracji bibliotek, rozbudowy testów oraz refaktoryzacji obejmujących frontend, backend i konfigurację projektu.

Koszt ukryty w nowym tokenizerze

W Sonnet 5 zastosowano nowy tokenizer, przez który ten sam tekst może zajmować przeciętnie około 30% więcej tokenów niż w Sonnet 4.6. Milion tokenów kontekstu mieści więc mniej rzeczywistego kodu i dokumentacji, a identyczny prompt może szybciej zużywać pulę przeznaczoną na zewnętrzne modele. Do końca sierpnia 2026 roku obowiązuje promocyjna cena API wynosząca 2 USD za milion tokenów wejściowych i 10 USD za milion tokenów wyjściowych. Obniżka w dużej mierze kompensuje większą tokenizację, ale po zakończeniu promocji korzyść zniknie. Rzeczywisty koszt zadania będzie zależał również od poziomu effort, liczby wywołań narzędzi i długości procesu reasoning.

Wyraźny postęp względem poprzednika

W CursorBench 3.1 Sonnet 5 High osiągnął wynik 57%, podczas gdy Sonnet 4.6 High uzyskał 48,8%. Oznacza to wzrost o 8,2 punktu procentowego, czyli około 17% poprawy względnej w zadaniach opartych na rzeczywistych sesjach programistycznych. Jednocześnie średni koszt wykonania zadania wzrósł z 3,06 USD do 3,74 USD. Wyższa skuteczność została więc uzyskana kosztem większej liczby tokenów i bardziej rozbudowanego działania agentowego. Sonnet 5 stanowi istotny skok generacyjny, ale nie gwarantuje niższego kosztu wykonania tej samej pracy.

Alternatywa dla droższych modeli

W porównaniu z Opus 4.8 różnice skuteczności pozostają niewielkie. Sonnet 5 High osiągnął 57%, a Opus 4.8 High 58,4%, przy czym średni koszt zadania wykonywanego przez Sonnet był niższy o około 15%. Jeszcze większa przewaga kosztowa wystąpiła na poziomie Medium, gdzie Sonnet 5 kosztował około jedną trzecią mniej. Opus nadal zachowuje sens przy szczególnie trudnym debugowaniu, analizie architektury i problemach wymagających maksymalnej pewności. Fable 5 pozostaje natomiast osobną klasą skuteczności, ale kosztuje od około 10,81 do 18,02 USD za zadanie i wymaga zaakceptowania 30-dniowej retencji danych.

Najważniejszy konkurent działa lokalnie

Największym rywalem Sonnet 5 w Cursorze nie jest model Opus, lecz Composer 2.5. W CursorBench model Cursora uzyskał 63,2%, przewyższając wszystkie warianty Sonnet 5 i zbliżając się do wyniku Opus 4.8 Max. Średni koszt zadania wyniósł przy tym zaledwie 0,55 USD. Sonnet 5 High był prawie siedem razy droższy, a Sonnet 5 Max ponad dwanaście razy droższy. Jeden benchmark nie przesądza o zachowaniu w każdym projekcie, jednak nie istnieje ekonomiczne uzasadnienie, aby Sonnet 5 był automatycznie uruchamiany przy każdej standardowej zmianie kodu.

Praktyczna hierarchia pracy w Cursorze

W codziennym programowaniu zaleca się pozostawienie Auto albo Composer 2.5 jako podstawowego wyboru. Sonnet 5 High najlepiej traktować jako model eskalacyjny do trudnych błędów, refaktoryzacji wieloplikowych, migracji i zmian wymagających dokładniejszego zrozumienia zależności w repozytorium. Sonnet 5 Max lub Opus 4.8 mogą być uruchamiane przy problemach blokujących, gdy konieczna jest analiza znacznej części projektu. Fable 5 powinien pozostać rozwiązaniem wyjątkowym, przeznaczonym do zadań o dużej wartości biznesowej albo wysokim koszcie pracy ręcznej. W planach Teams modele Anthropic zużywają pulę zewnętrznych API, natomiast Auto i Composer korzystają z korzystniejszego sposobu rozliczania.

Zmiany wymagane po stronie API

Sonnet 5 jest dostępny w API pod identyfikatorem claude-sonnet-5. Migracja z Sonnet 4.6 nie powinna ograniczać się wyłącznie do zmiany nazwy modelu. Adaptacyjne myślenie jest domyślnie aktywne, parametr budget_tokens nie jest już obsługiwany, a niestandardowe wartości temperature, top_p oraz top_k mogą powodować błędy. Odpowiedź i proces reasoning korzystają ze wspólnego limitu max_tokens, dlatego dotychczasowe limity należy ponownie przeliczyć. Nowy tokenizer może bez odpowiedniej kontroli prowadzić do szybszego zużywania limitów lub obcinania rozbudowanych odpowiedzi.

Claude Sonnet 5 jest obecnie najbardziej uniwersalnym modelem Anthropic do programowania, ale nie najlepszym domyślnym wyborem w Cursor IDE. Wyraźnie przewyższa Sonnet 4.6 i w wielu zadaniach zbliża się do Opus 4.8, zachowując niższy koszt. Jednocześnie Composer 2.5 oferuje w środowisku Cursora lepszą relację skuteczności do zużycia. Najbardziej racjonalny układ obejmuje Auto lub Composer do codziennej pracy, Sonnet 5 do trudniejszych zadań, Opus do problemów wymagających większej pewności, a Fable wyłącznie do najbardziej wymagających i wartościowych operacji.

Tags:agenci, agent ai, ai, anthropic, claude, opus, sonnet, sztuczna inteligencja

Cursor Customize porządkuje konfigurację agentów

Claude Sonnet 5 od Anthropic