Anthropic představil Claude Opus 4.8. Má být opatrnější a méně sebejistě chybovat
Anthropic vydal Claude Opus 4.8, nový vlajkový model, jehož hlavním lákadlem není jen lepší generování kódu nebo delší paměť, ale chování. Model má častěji přiznávat nejistotu a méně často nechávat vlastní chyby bez povšimnutí. Podle Anthropicu Opus 4.8 v napsaném kódu přehlíží vlastní chyby zhruba čtyřikrát méně často než jeho předchůdce.
„Poctivá AI“ znamená méně blufování, ne morální svědomí
Anthropic u Claude Opus 4.8 používá silné slovo: poctivost. V technickém smyslu to neznamená morálního rozhodčího, ale model, který by měl méně často tvrdit věci bez opory, častěji rozpoznat slabiny vlastní práce a jasněji označovat nejistotu.
Jde o podstatný posun. Velké jazykové modely bývají nejnebezpečnější právě ve chvíli, kdy znějí nejsebejistěji. Neřeknou „nevím“, místo toho vystaví přesvědčivou odpověď na tenkých důkazních základech. Anthropic nyní tvrdí, že Opus 4.8 tento problém řeší přímočařeji než Opus 4.7.
Nejkonkrétnější metrika se týká kódu. Anthropic ve vlastních hodnoceních uvádí, že Opus 4.8 nechává chyby ve vlastním kódu projít bez odhalení zhruba čtyřikrát méně často než jeho předchůdce. To nelze automaticky přenášet na všechny oblasti, například právo, medicínu nebo finanční analýzy, pro vývojáře je to ale výrazný signál.
Opus 4.8 je stavěný na dlouhou práci, ne jen na rychlé odpovědi
Anthropic popisuje Claude Opus 4.8 jako svůj nejschopnější obecně dostupný Claude pro složité uvažování, delší agentní práci a autonomnější pracovní postupy. ID modelu je claude-opus-4-8, kontextové okno dosahuje 1 milionu tokenů přes Claude API, Amazon Bedrock a Vertex AI, přičemž maximální výstup činí 128 000 tokenů. V Microsoft Foundry je kontextové okno omezené na 200 000 tokenů.
Cenově Anthropic nevolí levnější cestu. Opus 4.8 stojí 5 dolarů za milion vstupních tokenů a 25 dolarů za milion výstupních tokenů. Je tedy stále dražší než Sonnet 4.6 s cenami 3 a 15 dolarů, Opus ale míří na náročnější úlohy, u nichž může jedno chybné rozhodnutí stát víc než samotné použití modelu.
Právě v tom spočívá praktická hodnota Opusu 4.8. Model, který lépe ví, kdy se zastavit, zavolat nástroj, ověřit pochybnost nebo se ohradit proti zadání uživatele, se ve vývojovém prostředí stává spolehlivějším partnerem. Nemusí být nutně chytřejší, ale je méně nebezpečně přehnaně sebejistý.
Dynamic Workflows dělá z Claude tým agentů
Spolu s Opusem 4.8 představil Anthropic funkci Dynamic Workflows pro Claude Code. Claude díky ní dokáže rozdělit velký úkol na desítky nebo stovky paralelních dílčích úloh pro subagenty, ověřit jejich výsledky a vrátit uživateli sjednocenou odpověď. Funkce je dostupná jako research preview přes Claude Code CLI, desktopovou aplikaci, rozšíření pro VS Code a také přes API, Amazon Bedrock, Vertex AI a Microsoft Foundry.
Nejde o drobné vylepšení komfortu. Ve vývoji softwaru to posouvá Claude z jednoho chatovacího okna do role enginu pro agentní pracovní postupy. Anthropic zmiňuje hledání chyb napříč kódovou základnou, bezpečnostní audity, rozsáhlé migrace a kritické úlohy, při nichž se nezávislí agenti zároveň pokoušejí výsledky vyvrátit.
Stejný směr vysvětluje důraz na „poctivost“ modelu. Když udělá chybu jeden chatbot, uživatel ji často rychle zachytí. Pokud ale stovky subagentů pracují napříč rozsáhlou kódovou základnou, špatně umístěná jistota se může nasčítat do velmi drahé chyby. Opus 4.8 proto musí nejen řešit, ale také vědět, kdy přestat.
Řízení úsilí dává uživatelům páku na cenu a kvalitu
Opus 4.8 má ve výchozím nastavení vysokou úroveň úsilí, kterou Anthropic popisuje jako nejlepší rovnováhu mezi kvalitou a použitelností. Nové řízení úsilí umožňuje uživatelům zvolit, kolik model před odpovědí „přemýšlí“. Vyšší nastavení přináší lepší výsledky u těžších úloh, nižší šetří čas a tokenovou kvótu.
Pro vývojáře jsou důležité ještě dva detaily. Zaprvé Opus 4.8 podporuje vkládání systémového promptu uprostřed konverzace, takže lze během dlouhých agentních běhů aktualizovat instrukce bez opětovného posílání celého systémového promptu. Zadruhé rychlý režim, který je nyní ve fázi research preview, umožňuje až 2,5krát rychlejší generování výstupních tokenů, ovšem za prémiovou cenu.
Pro evropské firmy je to důležité zejména kvůli nákladovému modelu. Jak se AI posouvá od generátoru textu k manažeru pracovních postupů, každý token má ekonomickou váhu. Opus 4.8 se snaží nabídnout uvažování na úrovni vlajkového modelu a zároveň nechat uživatele rozhodnout, kdy zaplatit za hlubší analýzu a kdy zvolit rychlejší odpověď.
V pozadí se rýsuje Mythos jako širší signál
Podle agentury Reuters přichází Opus 4.8 ve chvíli, kdy Anthropic připravuje širší uvedení výkonnějšího Claude Mythos. Mythos je spojován s pokročilými schopnostmi v kybernetické bezpečnosti a přes Project Glasswing k němu mají přístup vybraní partneři, včetně Amazonu, Microsoftu a Applu.
Opus 4.8 se tím dostává do zajímavé pozice. Není nejvýkonnějším modelem Anthropicu, je ale nejschopnějším obecně dostupným Claude této společnosti. Dokumentace API potvrzuje, že Claude Mythos Preview zůstává samostatným research preview pro defenzivní kyberbezpečnostní pracovní postupy, bez samoobslužného přístupu.
Anthropic tedy Opus 4.8 prodává na základě kontrolovatelné spolehlivosti, nikoli neomezeného výkonu. Pro firemní uživatele to může být důležitější než jedno vítězství v benchmarku, protože v právu, finanční analýze, vývoji softwaru i bezpečnostních auditech nakonec rozhoduje, jak často model pozná, že ještě nemá dostatečný základ pro pevný závěr.