AI-generated
Fullscreen Image

Anthropic maakt Claude Opus 4.8 voorzichtiger en minder stellig bij fouten

Auteur auto.pub | Gepubliceerd op: 01.06.2026

Anthropic heeft Claude Opus 4.8 uitgebracht, een nieuw topmodel waarvan het belangrijkste verkoopargument niet alleen betere codegeneratie of een langer geheugen is, maar vooral gedrag. Het model moet vaker onzekerheid erkennen en minder vaak eigen fouten onopgemerkt laten passeren. Volgens Anthropic laat Opus 4.8 in door het model geschreven code ongeveer vier keer minder vaak fouten stilzwijgend staan dan zijn voorganger.

"Eerlijke AI" betekent minder bluffen, geen moreel geweten

Anthropic gebruikt voor Claude Opus 4.8 een krachtig woord: eerlijkheid. Technisch gezien gaat het niet om een morele beslisser, maar om een model dat minder ongefundeerde claims moet doen, vaker zwakke plekken in het eigen werk moet herkennen en onzekerheid duidelijker moet aangeven.

Dat is een betekenisvolle verschuiving. Grote taalmodellen zijn vaak juist het gevaarlijkst wanneer ze het meest zelfverzekerd klinken. Ze zeggen niet: "Ik weet het niet", maar bouwen een overtuigend antwoord op een smalle bewijsbasis. Volgens Anthropic pakt Opus 4.8 dit probleem directer aan dan Opus 4.7.

De meest concrete maatstaf gaat over code. Anthropic stelt op basis van eigen evaluaties dat Opus 4.8 fouten in zijn eigen code ongeveer vier keer minder vaak onopgemerkt laat dan zijn voorganger. Dat mag niet automatisch worden doorgetrokken naar alle domeinen, zoals recht, geneeskunde of financiële analyse, maar voor ontwikkelaars is het een stevig signaal.

Opus 4.8 is gemaakt voor lang werk, niet alleen voor snelle antwoorden

Anthropic omschrijft Claude Opus 4.8 als zijn meest capabele algemeen beschikbare Claude voor complexe redeneringen, langdurig agentisch werk en autonomere workflows. De model-ID is claude-opus-4-8. Het contextvenster loopt op tot 1 miljoen tokens via Claude API, Amazon Bedrock en Vertex AI, met een maximale output van 128.000 tokens. In Microsoft Foundry is het contextvenster begrensd op 200.000 tokens.

Met de prijs kiest Anthropic niet voor de goedkope route. Opus 4.8 kost 5 dollar per miljoen inputtokens en 25 dollar per miljoen outputtokens. Daarmee blijft het duurder dan Sonnet 4.6, dat 3 en 15 dollar kost, maar Opus richt zich op zwaardere taken waarbij één verkeerde beslissing meer kan kosten dan het gebruik van het model zelf.

Daar ligt de praktische waarde van Opus 4.8. Een model dat beter weet wanneer het moet pauzeren, een tool moet aanroepen, een twijfel moet controleren of tegenspel moet bieden aan input van de gebruiker, wordt een betrouwbaardere partner in een ontwikkelomgeving. Niet noodzakelijk slimmer, wel minder gevaarlijk overmoedig.

Dynamic Workflows maakt van Claude een team van agents

Naast Opus 4.8 introduceerde Anthropic Dynamic Workflows voor Claude Code. Met die functie kan Claude een grote taak opsplitsen in tientallen of honderden parallelle sub-agenttaken, de resultaten controleren en een samengevoegd antwoord aan de gebruiker teruggeven. De functie is beschikbaar als research preview via Claude Code CLI, de desktopapp, de VS Code-extensie en via de API, Amazon Bedrock, Vertex AI en Microsoft Foundry.

Dat is geen kleine gemaksfunctie. In softwareontwikkeling verschuift Claude hiermee van één chatvenster naar een agentische workflowmotor. Anthropic noemt onder meer bugjachten over meerdere codebases, beveiligingsaudits, grootschalige migraties en kritieke taken waarbij onafhankelijke agents ook proberen resultaten te weerleggen.

Diezelfde richting verklaart de nadruk op de "eerlijkheid" van het model. Als één chatbot een fout maakt, merkt een gebruiker dat vaak snel. Maar wanneer honderden sub-agents in een grote codebase werken, kan misplaatste zekerheid uitgroeien tot een zeer kostbare fout. Opus 4.8 moet daarom niet alleen oplossen, maar ook weten wanneer het moet stoppen.

Effort control geeft gebruikers grip op kosten en kwaliteit

Opus 4.8 staat standaard op een hoog effortniveau, dat Anthropic omschrijft als de beste balans tussen kwaliteit en bruikbaarheid. Met de nieuwe effort control kunnen gebruikers bepalen hoeveel het model "nadenkt" voordat het antwoord geeft. Een hogere instelling levert betere resultaten op bij moeilijkere taken, terwijl een lagere instelling tijd en tokenquotum bespaart.

Voor ontwikkelaars zijn nog twee details van belang. Ten eerste ondersteunt Opus 4.8 het injecteren van systeemprompts midden in een gesprek, waardoor instructies tijdens lange agentische runs kunnen worden bijgewerkt zonder de volledige systeemprompt opnieuw te versturen. Ten tweede maakt fast mode, momenteel in research preview, tot 2,5 keer snellere generatie van outputtokens mogelijk, wel tegen premiumprijzen.

Voor Europese bedrijven is dat vooral relevant vanwege het kostenmodel. Naarmate AI verschuift van tekstgenerator naar workflowmanager, krijgt elke token economisch gewicht. Opus 4.8 probeert redeneren op topmodelniveau te bieden, terwijl gebruikers kunnen bepalen wanneer ze betalen voor diepere analyse en wanneer ze kiezen voor het snellere antwoord.

Mythos hangt op de achtergrond als groter signaal

Volgens Reuters verschijnt Opus 4.8 terwijl Anthropic een bredere release voorbereidt van het krachtigere Claude Mythos. Mythos wordt gekoppeld aan geavanceerde cyberbeveiligingsmogelijkheden en is via Project Glasswing toegankelijk voor geselecteerde partners, waaronder Amazon, Microsoft en Apple.

Daarmee neemt Opus 4.8 een interessante positie in. Het is niet het krachtigste model van Anthropic, maar wel de meest capabele algemeen beschikbare Claude van het bedrijf. De API-documentatie bevestigt dat Claude Mythos Preview een aparte research preview blijft voor defensieve cyberbeveiligingsworkflows, zonder selfservice-toegang.

Anthropic verkoopt Opus 4.8 dus op basis van controleerbare betrouwbaarheid, niet op onbeperkte kracht. Voor zakelijke gebruikers kan dat belangrijker zijn dan winst op één benchmark, omdat in recht, financiële analyse, softwareontwikkeling en beveiligingsaudits uiteindelijk telt hoe vaak een model herkent dat het nog niet genoeg grond heeft om een harde conclusie te trekken.