Anthropic lanza Claude Opus 4.8, un modelo más cauto y menos propenso a equivocarse con seguridad
Anthropic ha lanzado Claude Opus 4.8, su nuevo modelo insignia, cuyo principal argumento no es solo generar mejor código o recordar más contexto, sino su comportamiento. Está diseñado para reconocer la incertidumbre con más frecuencia y dejar pasar menos errores propios sin detectarlos. Según Anthropic, Opus 4.8 es unas cuatro veces menos propenso que su predecesor a pasar por alto errores en el código que escribe.
"IA honesta" significa menos faroles, no una conciencia moral
Anthropic utiliza una palabra contundente para Claude Opus 4.8: honestidad. En términos técnicos, no habla de un sistema con criterio moral, sino de un modelo que debería hacer menos afirmaciones sin base, detectar más a menudo las debilidades de su propio trabajo y señalar con más claridad la incertidumbre.
El cambio es relevante. Los grandes modelos de lenguaje suelen ser más peligrosos precisamente cuando suenan más seguros. No dicen "no lo sé". Construyen una respuesta convincente sobre una base probatoria débil. Anthropic afirma ahora que Opus 4.8 aborda este problema de forma más directa que Opus 4.7.
La métrica más concreta afecta al código. Anthropic sostiene, según sus propias evaluaciones, que Opus 4.8 deja pasar sin detectar errores en su propio código unas cuatro veces menos que su predecesor. Ese dato no debe extrapolarse automáticamente a todos los ámbitos, como el derecho, la medicina o el análisis financiero, pero para los desarrolladores es una señal sólida.
Opus 4.8 está pensado para trabajos largos, no solo para respuestas rápidas
Anthropic describe Claude Opus 4.8 como su Claude de disponibilidad general más capaz para razonamiento complejo, trabajo agéntico prolongado y flujos de trabajo más autónomos. El identificador del modelo es claude-opus-4-8, y la ventana de contexto alcanza 1 millón de tokens a través de Claude API, Amazon Bedrock y Vertex AI, con una salida máxima de 128.000 tokens. En Microsoft Foundry, la ventana de contexto queda limitada a 200.000 tokens.
En precio, Anthropic no opta por una vía más barata. Opus 4.8 cuesta 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida. Sigue siendo más caro que Sonnet 4.6, con 3 y 15 dólares, pero Opus apunta a tareas más difíciles, donde una sola decisión errónea puede costar más que el propio uso del modelo.
Ahí reside el valor práctico de Opus 4.8. Un modelo que sabe mejor cuándo detenerse, llamar a una herramienta, comprobar una duda o cuestionar una instrucción del usuario se convierte en un socio más fiable en un entorno de desarrollo. No necesariamente más inteligente, pero sí menos peligrosamente seguro de sí mismo.
Dynamic Workflows convierte Claude en un equipo de agentes
Junto con Opus 4.8, Anthropic presentó Dynamic Workflows para Claude Code. La función permite a Claude dividir una tarea grande en decenas o cientos de trabajos paralelos de subagentes, verificar sus resultados y devolver al usuario una respuesta consolidada. Está disponible en vista previa de investigación mediante Claude Code CLI, la aplicación de escritorio, la extensión de VS Code y a través de la API, Amazon Bedrock, Vertex AI y Microsoft Foundry.
No es una mejora menor de comodidad. En desarrollo de software, desplaza a Claude de una simple ventana de chat a un motor de flujos de trabajo agénticos. Anthropic cita búsquedas de errores entre distintas bases de código, auditorías de seguridad, migraciones a gran escala y tareas críticas en las que agentes independientes también intentan refutar los resultados.
La misma dirección explica el énfasis en la "honestidad" del modelo. Cuando un único chatbot se equivoca, el usuario suele detectarlo pronto. Pero cuando cientos de subagentes trabajan sobre una gran base de código, un exceso de confianza mal colocado puede multiplicarse hasta convertirse en un error muy costoso. Por eso, Opus 4.8 no solo debe resolver. También debe saber cuándo parar.
El control de esfuerzo da al usuario una palanca sobre coste y calidad
Opus 4.8 utiliza por defecto un nivel de esfuerzo alto, que Anthropic describe como el mejor equilibrio entre calidad y usabilidad. El nuevo control de esfuerzo permite elegir cuánto "piensa" el modelo antes de responder: un ajuste más alto ofrece mejores resultados en tareas difíciles, mientras que uno más bajo ahorra tiempo y cuota de tokens.
Hay otros dos detalles importantes para los desarrolladores. Primero, Opus 4.8 admite la inyección de instrucciones de sistema a mitad de conversación, lo que permite actualizar indicaciones durante ejecuciones agénticas largas sin reenviar todo el prompt de sistema. Segundo, el modo rápido, actualmente en vista previa de investigación, permite generar tokens de salida hasta 2,5 veces más deprisa, aunque con precio premium.
Para las empresas europeas, esto importa especialmente por el modelo de costes. A medida que la IA pasa de generador de texto a gestor de flujos de trabajo, cada token tiene peso económico. Opus 4.8 intenta ofrecer razonamiento de nivel insignia y, al mismo tiempo, dejar que los usuarios decidan cuándo pagar por un análisis más profundo y cuándo optar por una respuesta más rápida.
Mythos aparece de fondo como una señal de mayor alcance
Según Reuters, Opus 4.8 llega mientras Anthropic prepara un lanzamiento más amplio del más potente Claude Mythos. Mythos está vinculado a capacidades avanzadas de ciberseguridad y es accesible para socios seleccionados, entre ellos Amazon, Microsoft y Apple, a través de Project Glasswing.
Esto sitúa a Opus 4.8 en una posición interesante. No es el modelo más potente de Anthropic, pero sí el Claude de disponibilidad general más capaz de la compañía. La documentación de la API confirma que Claude Mythos Preview sigue siendo una vista previa de investigación separada para flujos de trabajo de ciberseguridad defensiva, sin acceso de autoservicio.
Anthropic vende, por tanto, Opus 4.8 sobre la base de una fiabilidad controlable, no de una potencia sin límites. Para los usuarios empresariales, eso puede importar más que ganar una prueba comparativa concreta, porque en derecho, análisis financiero, desarrollo de software y auditoría de seguridad lo que al final cuenta es con qué frecuencia un modelo reconoce que aún no tiene base suficiente para llegar a una conclusión firme.