Anthropic predstavil Claude Opus 4.8. Má byť opatrnejší a menej sebavedomo sa mýliť
Anthropic vydal Claude Opus 4.8, nový vlajkový model, ktorého hlavnou prednosťou nemá byť iba lepšie generovanie kódu či dlhšia pamäť, ale správanie. Model má častejšie priznať neistotu a menej často prehliadnuť vlastné chyby. Podľa Anthropicu Opus 4.8 približne štyrikrát menej často než jeho predchodca nechá bez povšimnutia chyby v kóde, ktorý sám napíše.
„Úprimná AI“ znamená menej blafovania, nie morálne svedomie
Anthropic pri Claude Opus 4.8 používa silné slovo: úprimnosť. V technickom zmysle nejde o morálne rozhodovanie, ale o model, ktorý má robiť menej nepodložených tvrdení, častejšie si všímať slabiny vlastnej práce a jasnejšie upozorňovať na neistotu.
Je to podstatný posun. Veľké jazykové modely bývajú najnebezpečnejšie práve vtedy, keď znejú najistejšie. Nepovedia „neviem“, ale zostavia presvedčivú odpoveď na chabom dôkazovom základe. Anthropic teraz tvrdí, že Opus 4.8 tento problém rieši priamočiarejšie než Opus 4.7.
Najkonkrétnejšia metrika sa týka kódu. Anthropic vo vlastných hodnoteniach uvádza, že Opus 4.8 približne štyrikrát menej často nechá neodhalené chyby vo vlastnom kóde než jeho predchodca. Tento údaj nemožno automaticky prenášať na všetky oblasti, napríklad právo, medicínu či finančnú analýzu, pre vývojárov je to však silný signál.
Opus 4.8 je postavený na dlhú prácu, nielen na rýchle odpovede
Anthropic opisuje Claude Opus 4.8 ako svoj najschopnejší všeobecne dostupný Claude pre komplexné uvažovanie, dlhšiu agentnú prácu a autonómnejšie pracovné postupy. ID modelu je claude-opus-4-8 a kontextové okno dosahuje 1 milión tokenov cez Claude API, Amazon Bedrock a Vertex AI, s maximálnym výstupom 128 000 tokenov. V Microsoft Foundry je kontextové okno obmedzené na 200 000 tokenov.
Pri cenách Anthropic nejde lacnejšou cestou. Opus 4.8 stojí 5 dolárov za milión vstupných tokenov a 25 dolárov za milión výstupných tokenov. Stále je teda drahší než Sonnet 4.6 s cenami 3 a 15 dolárov, no Opus mieri na náročnejšie úlohy, pri ktorých môže jedno nesprávne rozhodnutie stáť viac než samotné používanie modelu.
Práve tu je praktická hodnota Opus 4.8. Model, ktorý lepšie vie, kedy sa zastaviť, zavolať nástroj, preveriť pochybnosť alebo namietnuť voči zadaniu používateľa, sa vo vývojárskom prostredí stáva spoľahlivejším partnerom. Nemusí byť nevyhnutne inteligentnejší, ale je menej nebezpečne sebavedomý.
Dynamic Workflows mení Claude na tím agentov
Spolu s Opus 4.8 Anthropic predstavil Dynamic Workflows pre Claude Code. Funkcia umožňuje Claude rozdeliť veľkú úlohu na desiatky alebo stovky paralelných úloh pre subagentov, overiť ich výsledky a používateľovi vrátiť zjednotenú odpoveď. Dostupná je v režime výskumného náhľadu cez Claude Code CLI, desktopovú aplikáciu, rozšírenie pre VS Code a prostredníctvom API, Amazon Bedrock, Vertex AI a Microsoft Foundry.
Nejde o drobné zlepšenie pohodlia. Pri vývoji softvéru posúva Claude z jedného chatovacieho okna na nástroj pre agentné pracovné postupy. Anthropic spomína hľadanie chýb naprieč viacerými codebase, bezpečnostné audity, rozsiahle migrácie a kritické úlohy, pri ktorých sa nezávislí agenti zároveň pokúšajú vyvrátiť výsledky.
Rovnakým smerom mieri aj dôraz na „úprimnosť“ modelu. Keď sa pomýli jeden chatbot, používateľ si to často rýchlo všimne. Ak však stovky subagentov pracujú naprieč veľkou codebase, nesprávne umiestnená istota sa môže znásobiť do veľmi drahej chyby. Opus 4.8 preto nesmie iba riešiť, musí tiež vedieť, kedy prestať.
Ovládanie úsilia dáva používateľom páku na náklady aj kvalitu
Opus 4.8 má predvolene nastavenú vysokú úroveň úsilia, ktorú Anthropic opisuje ako najlepšiu rovnováhu medzi kvalitou a použiteľnosťou. Nové ovládanie úsilia umožňuje používateľom zvoliť, koľko má model pred odpoveďou „premýšľať“. Vyššie nastavenie prináša lepšie výsledky pri náročnejších úlohách, nižšie šetrí čas a tokenovú kvótu.
Pre vývojárov sú dôležité ešte dve detaily. Po prvé, Opus 4.8 podporuje vkladanie systémového promptu počas konverzácie, takže pri dlhých agentných behoch možno aktualizovať pokyny bez opätovného odosielania celého systémového promptu. Po druhé, rýchly režim, ktorý je aktuálne vo výskumnom náhľade, umožňuje až 2,5-násobne rýchlejšie generovanie výstupných tokenov, hoci za prémiovú cenu.
Pre európske firmy je to dôležité najmä pre nákladový model. Keď sa AI posúva od generátora textu k manažérovi pracovných postupov, každý token má ekonomickú váhu. Opus 4.8 sa snaží ponúknuť uvažovanie na úrovni vlajkového modelu a zároveň nechať používateľom rozhodnutie, kedy zaplatiť za hlbšiu analýzu a kedy zvoliť rýchlejšiu odpoveď.
Mythos v pozadí naznačuje širší signál
Podľa Reuters prichádza Opus 4.8 v čase, keď Anthropic pripravuje širšie vydanie výkonnejšieho Claude Mythos. Mythos sa spája s pokročilými schopnosťami v oblasti kybernetickej bezpečnosti a cez Project Glasswing je dostupný vybraným partnerom vrátane Amazonu, Microsoftu a Applu.
Opus 4.8 sa tým dostáva do zaujímavej pozície. Nie je najvýkonnejším modelom Anthropicu, ale je jeho najschopnejším všeobecne dostupným Claude. Dokumentácia API potvrdzuje, že Claude Mythos Preview zostáva samostatným výskumným náhľadom pre obranné kyberbezpečnostné pracovné postupy, bez samoobslužného prístupu.
Anthropic preto Opus 4.8 predáva na základe kontrolovateľnej spoľahlivosti, nie neobmedzeného výkonu. Pre firemných používateľov to môže byť dôležitejšie než jedno víťazstvo v benchmarku, pretože v práve, finančnej analýze, vývoji softvéru a bezpečnostnom audite napokon rozhoduje to, ako často model rozpozná, že ešte nemá dostatočné podklady na pevný záver.