AI-generated
Fullscreen Image

Anthropic зробила Claude Opus 4.8 обережнішою і менш схильною до впевнених помилок

Автор auto.pub | Опубліковано: 01.06.2026

Anthropic випустила Claude Opus 4.8, нову флагманську модель, головною перевагою якої називають не лише кращу генерацію коду чи довшу пам’ять, а поведінку. Модель частіше має визнавати невизначеність і рідше пропускати власні помилки непоміченими. За даними Anthropic, Opus 4.8 приблизно вчетверо рідше, ніж попередниця, мовчки пропускає помилки у написаному нею коді.

«Чесний ШІ» означає менше блефу, а не моральну свідомість

Anthropic використовує щодо Claude Opus 4.8 сильне слово: чесність. У технічному сенсі йдеться не про морального арбітра, а про модель, яка має робити менше непідтверджених тверджень, частіше помічати слабкі місця у власній роботі та чіткіше позначати невизначеність.

Це суттєвий зсув. Великі мовні моделі найнебезпечніші саме тоді, коли звучать найбільш упевнено. Вони не кажуть «я не знаю», а будують переконливу відповідь на тонкій доказовій основі. Тепер Anthropic заявляє, що Opus 4.8 працює з цією проблемою пряміше, ніж Opus 4.7.

Найконкретніший показник стосується коду. Anthropic стверджує, що у власних оцінюваннях Opus 4.8 приблизно вчетверо рідше, ніж попередниця, залишає помилки у своєму коді непоміченими. Це не варто автоматично переносити на всі сфери, зокрема право, медицину чи фінансовий аналіз, але для розробників це сильний сигнал.

Opus 4.8 створена для тривалої роботи, а не лише швидких відповідей

Anthropic описує Claude Opus 4.8 як свою найздатнішу загальнодоступну Claude для складного міркування, тривалої агентної роботи та більш автономних робочих процесів. Ідентифікатор моделі: claude-opus-4-8. Контекстне вікно сягає 1 мільйона токенів через Claude API, Amazon Bedrock і Vertex AI, а максимальний обсяг відповіді становить 128 000 токенів. У Microsoft Foundry контекстне вікно обмежене 200 000 токенів.

За ціною Anthropic не пішла дешевшим шляхом. Opus 4.8 коштує $5 за мільйон вхідних токенів і $25 за мільйон вихідних токенів. Це досі дорожче за Sonnet 4.6 із цінами $3 і $15, але Opus орієнтована на складніші завдання, де одне хибне рішення може коштувати більше, ніж саме використання моделі.

Саме тут і полягає практична цінність Opus 4.8. Модель, яка краще розуміє, коли варто зупинитися, викликати інструмент, перевірити сумнів або заперечити користувацькому вводу, стає надійнішим партнером у середовищі розробки. Не обов’язково розумнішим, але менш небезпечно самовпевненим.

Dynamic Workflows перетворює Claude на команду агентів

Разом з Opus 4.8 Anthropic представила Dynamic Workflows для Claude Code. Функція дає Claude змогу розбивати велике завдання на десятки або сотні паралельних завдань для субагентів, перевіряти їхні результати й повертати користувачу зведену відповідь. Вона доступна у форматі дослідницького прев’ю через Claude Code CLI, десктопний застосунок, розширення для VS Code, а також через API, Amazon Bedrock, Vertex AI і Microsoft Foundry.

Це не дрібна зручність. У розробці програмного забезпечення Claude переходить від окремого вікна чату до рушія агентних робочих процесів. Anthropic наводить як приклади пошук багів у різних кодових базах, аудити безпеки, масштабні міграції та критичні завдання, у яких незалежні агенти також намагаються спростувати результати.

Той самий напрям пояснює акцент на «чесності» моделі. Коли помиляється один чатбот, користувач часто швидко це помічає. Але коли сотні субагентів працюють у великій кодовій базі, недоречна впевненість може перерости в дуже дорогу помилку. Тому Opus 4.8 має не лише розв’язувати завдання, а й розуміти, коли треба зупинитися.

Керування зусиллям дає користувачам важіль для балансу ціни та якості

Opus 4.8 за замовчуванням працює з високим рівнем зусилля, який Anthropic називає найкращим балансом між якістю та зручністю. Нове керування зусиллям дозволяє користувачам обирати, скільки модель «думатиме» перед відповіддю. Вищий рівень дає кращі результати у складніших завданнях, нижчий заощаджує час і ліміт токенів.

Для розробників важливі ще дві деталі. По-перше, Opus 4.8 підтримує додавання системного промпта посеред розмови, що дає змогу оновлювати інструкції під час довгих агентних запусків без повторного надсилання всього системного промпта. По-друге, швидкий режим, який нині доступний у дослідницькому прев’ю, забезпечує до 2,5 раза швидшу генерацію вихідних токенів, але за преміальною ціною.

Для європейського бізнесу це особливо важливо через модель витрат. Коли ШІ переходить від генератора тексту до менеджера робочих процесів, кожен токен має економічну вагу. Opus 4.8 намагається запропонувати міркування флагманського рівня, водночас даючи користувачам змогу вирішувати, коли платити за глибший аналіз, а коли обрати швидшу відповідь.

Mythos у тлі як ширший сигнал

За даними Reuters, Opus 4.8 виходить у момент, коли Anthropic готує ширший реліз потужнішої Claude Mythos. Mythos пов’язують із просунутими можливостями кібербезпеки, а доступ до неї мають окремі партнери, зокрема Amazon, Microsoft і Apple, через Project Glasswing.

Це ставить Opus 4.8 у цікаве становище. Вона не є найпотужнішою моделлю Anthropic, але це найздатніша загальнодоступна Claude компанії. Документація API підтверджує, що Claude Mythos Preview залишається окремим дослідницьким прев’ю для захисних робочих процесів у кібербезпеці, без самостійного доступу.

Тож Anthropic продає Opus 4.8 радше через контрольовану надійність, ніж через необмежену потужність. Для бізнес-користувачів це може бути важливішим за перемогу в окремому бенчмарку, адже в праві, фінансовому аналізі, розробці програмного забезпечення та аудиті безпеки зрештою має значення те, як часто модель розпізнає, що в неї ще немає достатніх підстав для твердого висновку.