Óvatosabb és ritkábban téved magabiztosan a Claude Opus 4.8
Az Anthropic kiadta a Claude Opus 4.8-at, új csúcsmodelljét, amelynek fő ígérete nem pusztán a jobb kódgenerálás vagy a hosszabb memória, hanem a működésmód. A modellt úgy tervezték, hogy gyakrabban jelezze a bizonytalanságot, és ritkábban engedje észrevétlenül tovább a saját hibáit. Az Anthropic szerint az Opus 4.8 nagyjából négyszer kisebb eséllyel siklik át csendben a saját maga által írt kód hibái felett, mint az elődje.
A „becsületes AI” kevesebb blöfföt jelent, nem erkölcsi lelkiismeretet.
Az Anthropic erős kifejezést használ a Claude Opus 4.8 kapcsán: becsületesség. Műszaki értelemben ez nem erkölcsi döntéshozót jelent, hanem olyan modellt, amelynek kevesebb megalapozatlan állítást kellene tennie, gyakrabban kellene észrevennie a saját munkája gyenge pontjait, és világosabban kellene jeleznie a bizonytalanságot.
Ez érdemi irányváltás. A nagy nyelvi modellek éppen akkor lehetnek a legveszélyesebbek, amikor a legmagabiztosabbnak hangzanak. Nem azt mondják, hogy „nem tudom”, hanem vékony bizonyítéki alapra építenek meggyőző választ. Az Anthropic most azt állítja, hogy az Opus 4.8 közvetlenebbül kezeli ezt a problémát, mint az Opus 4.7.
A legkonkrétabb mérőszám a kódhoz kapcsolódik. Az Anthropic saját értékelései szerint az Opus 4.8 nagyjából négyszer ritkábban hagyja észrevétlenül átcsúszni a saját kódjában lévő hibákat, mint az elődje. Ezt nem szabad automatikusan minden területre, például a jogra, az orvoslásra vagy a pénzügyi elemzésre kiterjeszteni, de a fejlesztők számára erős jelzés.
Az Opus 4.8-at hosszú munkára szánták, nem csak gyors válaszokra.
Az Anthropic a Claude Opus 4.8-at a legképességesebb, általánosan elérhető Claude-modellként írja le összetett következtetésre, elnyújtott agentikus munkára és önállóbb munkafolyamatokra. A modellazonosító claude-opus-4-8, a kontextusablak pedig a Claude API-n, az Amazon Bedrockon és a Vertex AI-on keresztül eléri az 1 millió tokent, legfeljebb 128 000 tokenes kimenettel. A Microsoft Foundryban a kontextusablak felső határa 200 000 token.
Az áraknál az Anthropic nem az olcsóbb utat választja. Az Opus 4.8 ára 5 dollár egymillió bemeneti tokenért és 25 dollár egymillió kimeneti tokenért. Ez továbbra is drágább, mint a Sonnet 4.6, amelynél ugyanez 3, illetve 15 dollár, de az Opus nehezebb feladatokat céloz, ahol egyetlen rossz döntés többe kerülhet, mint maga a modellhasználat.
Itt látszik az Opus 4.8 gyakorlati értéke. Egy modell, amely jobban tudja, mikor kell megállnia, eszközt hívnia, ellenőriznie egy kétséget vagy visszakérdeznie a felhasználói utasításra, megbízhatóbb partner lehet fejlesztői környezetben. Nem feltétlenül okosabb, de kevésbé veszélyesen túl magabiztos.
A Dynamic Workflows ügynökök csapatává alakítja a Claude-ot.
Az Opus 4.8-cal együtt az Anthropic bemutatta a Claude Code-hoz készült Dynamic Workflows funkciót. Ez lehetővé teszi, hogy a Claude egy nagy feladatot több tíz vagy több száz párhuzamos alügynöki munkára bontson, ellenőrizze az eredményeiket, majd összesített választ adjon a felhasználónak. Kutatási előzetesként érhető el a Claude Code CLI-ben, az asztali alkalmazásban, a VS Code-bővítményben, valamint API-n, Amazon Bedrockon, Vertex AI-on és Microsoft Foundryn keresztül.
Ez nem apró kényelmi funkció. A szoftverfejlesztésben a Claude-ot egyetlen csevegőablakból agentikus munkafolyamat-motorrá tolja el. Az Anthropic példaként kódbázisokon átívelő hibakereséseket, biztonsági auditokat, nagyléptékű migrációkat és olyan kritikus feladatokat említ, amelyeknél független ügynökök az eredmények cáfolatával is próbálkoznak.
Ugyanez az irány magyarázza, miért kap hangsúlyt a modell „becsületessége”. Ha egyetlen chatbot hibázik, a felhasználó gyakran gyorsan észreveszi. Amikor azonban több száz alügynök dolgozik egy nagy kódbázison, a rossz helyen jelentkező magabiztosság nagyon drága hibává állhat össze. Az Opus 4.8-nak ezért nemcsak megoldania kell a feladatokat, hanem azt is tudnia kell, mikor kell megállnia.
Az erőfeszítés szabályozása eszközt ad a felhasználónak a költség és a minőség kezelésére.
Az Opus 4.8 alapértelmezésben magas erőfeszítési szinten működik, amit az Anthropic a minőség és a használhatóság legjobb egyensúlyaként ír le. Az új effort control segítségével a felhasználók megválaszthatják, mennyit „gondolkodjon” a modell a válasz előtt. A magasabb beállítás nehezebb feladatoknál jobb eredményt ad, az alacsonyabb időt és tokenkeretet takarít meg.
Két további részlet a fejlesztők számára különösen fontos. Először is, az Opus 4.8 támogatja a beszélgetés közbeni rendszerprompt-injektálást, így hosszú agentikus futások során az utasítások frissíthetők anélkül, hogy a teljes rendszerpromptot újra el kellene küldeni. Másodszor, a jelenleg kutatási előzetesben lévő gyors mód akár 2,5-szer gyorsabb kimeneti token-generálást tesz lehetővé, igaz, prémium árazás mellett.
Az európai vállalkozások számára ez különösen a költségmodell miatt lényeges. Ahogy az AI szöveggenerátorból munkafolyamat-kezelővé válik, minden tokennek gazdasági súlya lesz. Az Opus 4.8 csúcsszintű következtetést próbál kínálni úgy, hogy közben a felhasználók dönthetik el, mikor fizetnek a mélyebb elemzésért, és mikor választják a gyorsabb választ.
A háttérben a Mythos nagyobb jelzésként rajzolódik ki.
A Reuters szerint az Opus 4.8 akkor érkezik, amikor az Anthropic a nagyobb teljesítményű Claude Mythos szélesebb körű kiadására készül. A Mythos fejlett kiberbiztonsági képességekhez kapcsolódik, és kiválasztott partnerek, köztük az Amazon, a Microsoft és az Apple számára érhető el a Project Glasswingen keresztül.
Ez érdekes helyzetbe hozza az Opus 4.8-at. Nem ez az Anthropic legerősebb modellje, de ez a vállalat legképességesebb, általánosan elérhető Claude-modellje. Az API-dokumentáció megerősíti, hogy a Claude Mythos Preview továbbra is külön kutatási előzetes marad védelmi kiberbiztonsági munkafolyamatokhoz, önkiszolgáló hozzáférés nélkül.
Az Anthropic ezért nem korlátlan teljesítményként, hanem kontrollálható megbízhatóságként értékesíti az Opus 4.8-at. Üzleti felhasználóknál ez többet számíthat egyetlen benchmarkgyőzelemnél, mert a jogban, a pénzügyi elemzésben, a szoftverfejlesztésben és a biztonsági auditoknál végső soron az a döntő, milyen gyakran ismeri fel a modell, hogy még nincs elegendő alapja határozott következtetést levonni.