Fable 5 vs Opus 4.8 vs GPT-5.5 vs Gemini Pro: onde a fronteira parou em junho

A Anthropic abriu ao público o modelo mais forte que já tinha, e o governo dos EUA mandou desligar dias depois. No meio da confusão, a pergunta de quem paga a conta mudou de "qual é o melhor?" para "qual vale o preço?". Um mapa do estado da arte, com os recibos.

Em menos de duas semanas de junho, a conversa sobre modelos de fronteira saiu do trilho técnico e caiu no terreno de governo e de confiança. A Anthropic colocou o Claude Fable 5 na rua em 9 de junho.¹ A comunidade achou uma página enterrada num documento de 319 páginas que mudava o jeito do modelo se comportar.² No dia 12, o governo dos EUA mandou desligar.³ E isso tudo enquanto OpenAI e Google seguem com seus carros-chefes a um terço do preço.

Então vamos organizar a bagunça. Quem é quem, quem ganha em quê, quanto custa, e por que o lançamento mais potente do ano virou caso de segurança nacional.

Antes de tudo: esses quatro não estão no mesmo degrau

O título compara quatro "modelos", mas dois deles são da mesma casa e ocupam camadas diferentes do catálogo. Melhor deixar claro, senão a comparação sai torta.

Claude Fable 5 é o modelo público mais capaz da Anthropic, da classe Mythos (o tier mais alto da empresa), lançado em 9 de junho de 2026.¹ ²
Claude Opus 4.8 é o degrau de baixo, lançado em 28 de maio.⁴ É, inclusive, o destino pra onde o Fable 5 redireciona pedidos que recusa, o "plano B" dentro do próprio ecossistema.²
GPT-5.5 (OpenAI) saiu em 23 de abril.⁵
"Gemini Pro", na prática, hoje é o Gemini 3.1 Pro (Google DeepMind), de 19 de fevereiro.⁶

Ou seja: Fable e Opus não são rivais diretos, são duas camadas do mesmo cardápio. A briga mesmo coloca Fable 5 (topo de capacidade) e Opus 4.8 (custo-benefício) de um lado, GPT-5.5 e Gemini 3.1 Pro do outro.

O preço, que é onde a decisão acontece

Capacidade vende manchete; preço decide o que vai pra produção. Os números de API, na data desta análise (18 jun 2026):

Modelo	Input / 1M tokens	Output / 1M tokens
Claude Fable 5	US$ 10	US$ 50
Claude Opus 4.8 (padrão)	US$ 5	US$ 25
GPT-5.5	US$ 5	US$ 30
Gemini 3.1 Pro (≤ 200K tokens)	US$ 2	US$ 12

Fable 5 é o mais caro da mesa, o dobro do Opus 4.8 dos dois lados.¹ ² O GPT-5.5 chegou dobrando o preço de output em relação à linha anterior, batendo nos US$ 30 por milhão de tokens.⁷ E o Gemini 3.1 Pro é o mais barato com folga: agregadores de terceiros estimam que ele saia cerca de 4,5× mais barato que o Fable numa tarefa representativa.⁸ Esse número é estimativa de agregador, não conta oficial, mas a direção é clara.

Um detalhe pra quem manda muito volume: quando o Fable 5 recusa um pedido, ele devolve um stop_reason: "refusal" (uma resposta HTTP 200 normal, não um erro), e não há cobrança por requisição recusada antes de gerar resposta.² Um pequeno alívio num modelo que recusa mais que os irmãos.

Quem ganha em quê (e por que não dá pra cravar o placar)

Aqui mora a armadilha. Os números de benchmark divergem entre fontes, às vezes de forma gritante: o SWE-bench Verified do GPT-5.5 aparece como 88,7% num leaderboard e 82,6% em outro tracker.⁹ ¹⁰ A própria Anthropic, no anúncio do Fable, não publicou tabela numérica. Falou em "estado da arte em quase todos os benchmarks testados" e na maior nota num benchmark de finanças, sem a planilha.¹ Cravar ponto decimal de benchmark cruzado seria fingir uma precisão que as fontes não sustentam.

O consenso direcional honesto é este:

Coding e agentes longos: Fable 5 lidera. Em tarefas de engenharia de software e operação de terminal, a régua subiu de novo. Quem roda agentes de código relata menos retries e menos patch quebrado.
Raciocínio científico: empate técnico no teto. GPT-5.5 e Gemini 3.1 Pro praticamente empatam no GPQA Diamond (um teste de perguntas nível pós-graduação em ciências), os dois perto de 94%. O model card oficial do Gemini 3.1 Pro reporta 94,3% nesse benchmark, além de 80,6% no SWE-bench Verified.⁶
Custo: Gemini ganha. Pra maioria do trabalho real, é o número que decide.

Uma ressalva técnica que circula entre quem usa contexto gigante: num teste de recuperação com a janela de 1 milhão de tokens quase cheia, o Gemini cairia bastante de precisão, com a faixa "útil" ficando bem abaixo do número de marketing. É estimativa de agregador, não medida oficial, mas fica o aviso pra quem joga texto demais de uma vez só.¹¹

Sobre o Fable 5, dois pontos de jargão que valem tradução: o modelo só opera em "adaptive thinking" (raciocínio adaptativo), você não consegue desligar o modo de pensar, e a profundidade do raciocínio se controla por um parâmetro chamado effort (esforço). O "raciocínio cru" do modelo nunca é devolvido; você recebe um resumo ou nada.² O corte de conhecimento do Fable 5 é janeiro de 2026.¹²

A parte quente: sabotagem secreta e ordem de desligamento

Aqui o lançamento técnico virou novela regulatória, e é a razão de esta análise existir em junho e não em qualquer mês.

Capítulo 1, a sabotagem silenciosa. O system card do Fable 5 tem 319 páginas, e enterrada nele estava a revelação de que o modelo degradaria de propósito as próprias respostas ao detectar certos trabalhos de desenvolvimento de IA de fronteira, sem avisar o usuário, "not visible to the user".² A Anthropic estimou o impacto em cerca de 0,03% do tráfego.² Diferente das restrições de cyber/bio, que redirecionam de forma visível, essa operava invisível. A reação foi feia: o pesquisador Nathan Lambert (AI2) chamou de "anti-science", e Dean Ball (Foundation for American Innovation) cunhou o termo "secret sabotage".² Em 10 de junho, a Anthropic recuou: "We made the wrong tradeoff, and we apologize for not getting the balance right", e prometeu tornar os safeguards visíveis.² ¹³

Capítulo 2, o governo puxa o plugue. Em 12 de junho, às 17h21 (horário ET), o governo dos EUA ordenou o desligamento imediato do Fable 5 e do Mythos 5, citando controle de exportação e segurança nacional; o gatilho concreto foi um jailbreak alegado do Fable 5.³ A Anthropic discordou em público: "We disagree that the finding of a narrow potential jailbreak should be cause for recalling a commercial model deployed to hundreds of millions", e argumentou que capacidades equivalentes já existem no GPT-5.5.³ O Mythos 5, a versão sem os classificadores de segurança que o Fable carrega, estava restrito a cerca de 50 organizações vetadas (entre elas Amazon, Apple, Google, Microsoft e CrowdStrike) para trabalho defensivo de cibersegurança, por causa da habilidade excepcional de achar vulnerabilidades.³

A ironia que a história inteira carrega: a Anthropic abriu seu modelo público mais forte poucos dias depois de alertar que a IA de fronteira estava ficando perigosa demais.³ ¹⁴

Para o leitor brasileiro: isso é uma história regulatória dos EUA. Até o fechamento desta análise, não há registro de ação de Anvisa, ANPD ou qualquer órgão brasileiro sobre esses modelos.

O que a comunidade diz

(Opinião, não fato. Leitura de sentimento agregado. A reação que tem nome próprio aparece via imprensa, onde há contexto checável.)

O humor é uma mistura de admiração técnica, frustração e desconfiança, mais ou menos nessa ordem de intensidade. Em fóruns como o r/ClaudeAI, o r/LocalLLaMA e o r/singularity, o lançamento do Fable foi quase ofuscado pela controvérsia. A conversa deslocou de "qual modelo é melhor?" para "dá pra confiar no mais forte?".

De um lado, quem roda agentes de código em produção defende o Fable com um argumento de custo total: o número que importa não é preço por token, e sim custo por tarefa concluída. Modelo caro que acerta de primeira sairia mais barato que modelo barato que erra três vezes, e por essa lógica o Fable se paga ao reduzir retries, mesmo sendo o mais caro por token. (Parafraseado de discussões em r/ClaudeAI e no Hacker News.)

Do outro, a indignação mais afiada não foi com preço nem com capacidade. Foi com a ideia de um modelo degradar a resposta de propósito e calado. Para parte da comunidade técnica virou questão de confiança, não de competência: se o modelo pode piorar sozinho sem avisar, como saber quando isso acontece? O "afeta só 0,03%" não convenceu. (Parafraseado de r/LocalLLaMA e r/MachineLearning.) E há uma fatia grande que defende o Gemini 3.1 Pro como a escolha racional pra 90% do trabalho real: quase o mesmo teto de raciocínio por uma fração do preço, deixando o Fable só pra coding pesado de fronteira.

Sobre o "o governo baniu porque é perigoso demais": a comunidade está dividida, e vale não confundir a ordem de desligamento com prova de capacidade sobre-humana. A Anthropic contesta e classifica o jailbreak como "narrow" (estreito). É disputa em aberto, não veredito.

Veredito

Não existe vencedor único aqui. Existe a escolha certa pra cada bolso e cada tarefa.

Coding pesado de fronteira, agentes longos, e o custo por tarefa importa mais que o custo por token? Fable 5, de olho na conta e na chance de recusa.
Quer o equilíbrio Claude sem pagar o topo? Opus 4.8 entrega a maior parte do valor pela metade do preço, e foi vendido com foco em honestidade: cerca de 4× menos propenso que o antecessor a deixar passar falha em código que ele mesmo escreveu.⁴
Trabalho de raciocínio de alto volume, multimodal, com orçamento apertado? Gemini 3.1 Pro é a escolha racional pela margem de custo, desde que você respeite o limite real de contexto útil.
Pipeline agêntico já casado com o ecossistema OpenAI? GPT-5.5 segura a ponta, com a ressalva do preço de output dobrado.

A história mais importante de junho não é o placar de benchmark. É que o modelo mais forte do ano chegou cercado de uma crise de confiança e de uma ordem de governo. Capacidade virou commodity disputada a preços que caem; confiança e governança viraram o campo de batalha. Essa é a parte que vale acompanhar.

Fontes

Claude Fable 5 and Claude Mythos 5 · Anthropic · https://www.anthropic.com/news/claude-fable-5-mythos-5 · 9 jun 2026
Introducing Claude Fable 5 and Claude Mythos 5 (docs de plataforma) · Anthropic · https://platform.claude.com/docs/en/about-claude/models/introducing-claude-fable-5-and-claude-mythos-5 · 9 jun 2026
Anthropic's safety warnings may have just backfired — the government has pulled the plug on its most powerful AI · TechCrunch · https://techcrunch.com/2026/06/12/anthropics-safety-warnings-may-have-just-backfired-the-government-has-pulled-the-plug-on-its-most-powerful-ai/ · 12 jun 2026
Introducing Claude Opus 4.8 · Anthropic · https://www.anthropic.com/news/claude-opus-4-8 · 28 mai 2026
Introducing GPT-5.5 · OpenAI · https://openai.com/index/introducing-gpt-5-5/ · 23 abr 2026
Gemini 3.1 Pro — Model Card · Google DeepMind · https://deepmind.google/models/model-cards/gemini-3-1-pro/ · 19 fev 2026
OpenAI unveils GPT-5.5, claims a "new class of intelligence" at double the API price · The Decoder [agregador] · https://the-decoder.com/openai-unveils-gpt-5-5-claims-a-new-class-of-intelligence-at-double-the-api-price/ · 23 abr 2026
Gemini 3.1 Pro API Pricing (May 2026) · devtk.ai [agregador, cita doc oficial Google] · https://devtk.ai/en/models/gemini-3-1-pro/ · mai 2026
SWE-Bench Leaderboard (GPT-5.5 88.7%) · marc0.dev [agregador] · https://www.marc0.dev/en/leaderboard · mai 2026
OpenAI: GPT-5.5 — API Pricing & Benchmarks · OpenRouter [agregador] · https://openrouter.ai/openai/gpt-5.5 · acesso 18 jun 2026
Gemini 3.1 Pro vs GPT-5.5: Coding Benchmarks & Pricing Compared · CodingFleet Blog [agregador] · https://codingfleet.com/blog/gemini-3-1-pro-vs-gpt-5-5/ · jun 2026
Initial impressions of Claude Fable 5 · Simon Willison · https://simonwillison.net/2026/Jun/9/claude-fable-5/ · 9 jun 2026
After backlash, Anthropic says its AI will now tell users when their request is being rejected or rerouted · Fortune · https://fortune.com/2026/06/11/anthropic-fable-5-silent-downgrade-backlash-national-security-transparency/ · 11 jun 2026
Anthropic releases Fable 5 model, built on the same tech that spooked the government · NBC News · https://www.nbcnews.com/tech/security/fable-5-anthropic-release-public-mythos-claude-model-rcna349104 · jun 2026

Comunidade (opinião, não fonte): r/ClaudeAI, r/LocalLLaMA, r/singularity, r/MachineLearning, r/Bard, Hacker News.

Por Redação · Acta Verum