Anthropic wprowadza Claude Opus 4.8: ostrożniejszy model, który rzadziej myli się z pewnością siebie
Anthropic udostępnił Claude Opus 4.8, nowy flagowy model, którego głównym atutem mają być nie tylko lepsze generowanie kodu czy dłuższa pamięć, lecz także zachowanie. Model zaprojektowano tak, by częściej przyznawał się do niepewności i rzadziej przeoczał własne błędy. Według Anthropic Opus 4.8 około cztery razy rzadziej niż poprzednik bez reakcji przepuszcza błędy w kodzie, który sam pisze.
„Uczciwa AI” oznacza mniej blefowania, a nie moralne sumienie
Anthropic używa wobec Claude Opus 4.8 mocnego słowa: uczciwość. W sensie technicznym nie chodzi o moralnego decydenta, lecz o model, który ma rzadziej formułować twierdzenia bez podstaw, częściej dostrzegać słabości własnej pracy i wyraźniej sygnalizować niepewność.
To istotna zmiana. Duże modele językowe bywają najbardziej ryzykowne właśnie wtedy, gdy brzmią najbardziej pewnie. Nie mówią „nie wiem”, tylko budują przekonującą odpowiedź na bardzo wątłej podstawie dowodowej. Anthropic twierdzi teraz, że Opus 4.8 mierzy się z tym problemem bardziej bezpośrednio niż Opus 4.7.
Najbardziej konkretna miara dotyczy kodu. Anthropic deklaruje, że w jego własnych ewaluacjach Opus 4.8 około cztery razy rzadziej niż poprzednik przepuszcza niewykryte błędy we własnym kodzie. Nie należy automatycznie przenosić tego wyniku na wszystkie dziedziny, takie jak prawo, medycyna czy analiza finansowa, ale dla programistów to mocny sygnał.
Opus 4.8 powstał z myślą o długiej pracy, nie tylko szybkich odpowiedziach
Anthropic opisuje Claude Opus 4.8 jako najbardziej zaawansowany ogólnie dostępny model Claude do złożonego rozumowania, długotrwałej pracy agentowej i bardziej autonomicznych przepływów pracy. Identyfikator modelu to claude-opus-4-8, a okno kontekstu sięga 1 miliona tokenów przez Claude API, Amazon Bedrock i Vertex AI, przy maksymalnym wyniku wyjściowym 128 000 tokenów. W Microsoft Foundry okno kontekstu ograniczono do 200 000 tokenów.
Cenowo Anthropic nie wybiera tańszej ścieżki. Opus 4.8 kosztuje 5 dolarów za milion tokenów wejściowych i 25 dolarów za milion tokenów wyjściowych. To wciąż więcej niż Sonnet 4.6, wyceniony odpowiednio na 3 i 15 dolarów, ale Opus celuje w trudniejsze zadania, w których jedna błędna decyzja może kosztować więcej niż samo użycie modelu.
Właśnie tu leży praktyczna wartość Opusa 4.8. Model, który lepiej wie, kiedy się zatrzymać, wywołać narzędzie, sprawdzić wątpliwość albo zakwestionować dane wejściowe użytkownika, staje się bardziej wiarygodnym partnerem w środowisku programistycznym. Niekoniecznie mądrzejszym, ale mniej niebezpiecznie nadmiernie pewnym siebie.
Dynamic Workflows zmienia Claude’a w zespół agentów
Wraz z Opusem 4.8 Anthropic wprowadził Dynamic Workflows dla Claude Code. Funkcja pozwala Claude’owi podzielić duże zadanie na dziesiątki lub setki równoległych zadań dla subagentów, zweryfikować ich wyniki i zwrócić użytkownikowi skonsolidowaną odpowiedź. Jest dostępna w wersji research preview przez Claude Code CLI, aplikację desktopową, rozszerzenie do VS Code, a także przez API, Amazon Bedrock, Vertex AI i Microsoft Foundry.
Nie jest to drobne udogodnienie. W tworzeniu oprogramowania przesuwa Claude’a z roli pojedynczego okna czatu do roli silnika agentowego przepływu pracy. Anthropic wskazuje tu między innymi poszukiwanie błędów w wielu bazach kodu, audyty bezpieczeństwa, migracje na dużą skalę oraz krytyczne zadania, w których niezależni agenci próbują również obalić uzyskane wyniki.
Ten sam kierunek tłumaczy nacisk na „uczciwość” modelu. Gdy pojedynczy chatbot popełnia błąd, użytkownik często szybko go wychwytuje. Kiedy jednak setki subagentów pracują w dużej bazie kodu, źle ulokowana pewność siebie może narosnąć do bardzo kosztownej pomyłki. Opus 4.8 musi więc nie tylko rozwiązywać problemy, lecz także wiedzieć, kiedy przestać.
Kontrola wysiłku daje użytkownikom wpływ na koszt i jakość
Opus 4.8 domyślnie działa na wysokim poziomie wysiłku, który Anthropic określa jako najlepszy kompromis między jakością a użytecznością. Nowa kontrola wysiłku pozwala użytkownikom wybrać, ile model ma „myśleć” przed odpowiedzią. Wyższe ustawienie daje lepsze wyniki w trudniejszych zadaniach, niższe oszczędza czas i limit tokenów.
Dla programistów znaczenie mają jeszcze dwa szczegóły. Po pierwsze, Opus 4.8 obsługuje wstrzykiwanie systemowego promptu w trakcie rozmowy, co pozwala aktualizować instrukcje podczas długich uruchomień agentowych bez ponownego wysyłania całego promptu systemowego. Po drugie, tryb szybki, obecnie w wersji research preview, umożliwia generowanie tokenów wyjściowych nawet 2,5 razy szybciej, choć przy cenach premium.
Dla europejskich firm jest to szczególnie ważne ze względu na model kosztowy. Gdy AI przechodzi od generatora tekstu do menedżera przepływu pracy, każdy token ma znaczenie ekonomiczne. Opus 4.8 próbuje zaoferować rozumowanie na poziomie flagowego modelu, jednocześnie pozwalając użytkownikom decydować, kiedy zapłacić za głębszą analizę, a kiedy wybrać szybszą odpowiedź.
Mythos pozostaje w tle jako szerszy sygnał
Według Reutersa Opus 4.8 pojawia się w momencie, gdy Anthropic przygotowuje szersze wydanie mocniejszego modelu Claude Mythos. Mythos jest powiązany z zaawansowanymi możliwościami z zakresu cyberbezpieczeństwa i dostępny dla wybranych partnerów, w tym Amazona, Microsoftu i Apple, za pośrednictwem Project Glasswing.
To stawia Opusa 4.8 w interesującym położeniu. Nie jest najmocniejszym modelem Anthropic, ale jest najbardziej zaawansowanym ogólnie dostępnym Claude’em firmy. Dokumentacja API potwierdza, że Claude Mythos Preview pozostaje osobną wersją research preview dla defensywnych przepływów pracy w cyberbezpieczeństwie, bez dostępu samoobsługowego.
Anthropic sprzedaje więc Opusa 4.8 nie przez pryzmat nieograniczonej mocy, lecz kontrolowalnej niezawodności. Dla użytkowników biznesowych może to mieć większe znaczenie niż pojedyncza wygrana w benchmarku, bo w prawie, analizie finansowej, tworzeniu oprogramowania i audytach bezpieczeństwa ostatecznie liczy się to, jak często model rozpoznaje, że nie ma jeszcze wystarczających podstaw, by wyciągnąć stanowczy wniosek.