80,3% su SWE-bench Pro. 29,3% su FrontierCode Diamond. 90% su Hex Analytics. I numeri di Claude Fable 5 nel coding sono i migliori mai registrati su un modello pubblico. E sono anche il motivo per cui bisogna leggere attentamente prima di aggiornare le proprie pipeline.
Perché dietro i benchmark c’è un prezzo che cambia i conti, dei guardrail che a volte bloccano il lavoro legittimo, e un posizionamento che non è per tutti.
Cos’è Claude Fable 5: Mythos reso pubblico
Claude Fable 5 è la versione pubblica di Mythos 5 - il modello più potente di Anthropic fino a oggi. La differenza rispetto a Mythos 5 puro è uno strato di classificatori di sicurezza che intercetta meno del 5% delle conversazioni, reindirizzandole su Claude Opus 4.8 quando la richiesta tocca aree sensibili: cybersecurity avanzata, biologia, chimica. Mythos 5 senza filtri rimane riservato ai partner Glasswing per ricerca in sicurezza informatica.
Il modello è disponibile dal 9 giugno 2026 via API e su claude.ai. 1 milione di token di context window, 128.000 token di output massimo, knowledge cutoff a gennaio 2026. Per chi costruisce agenti AI complessi, il contesto da 1M token è il vero cambio strutturale rispetto ai modelli precedenti.
I benchmark che distaccano GPT-5.5 nel coding
Nel coding, il distacco da GPT-5.5 è netto e non marginale. Su SWE-bench Pro - lo standard per la risoluzione autonoma di bug in codebase reali - Claude Fable 5 arriva all’80,3% contro il 58,6% di GPT-5.5 e il 13,4% di Opus 4.8. Un salto strutturale, non un miglioramento incrementale.
Su FrontierCode Diamond, che misura task di coding avanzato in ambiente isolato, il divario si allarga: 29,3% Fable 5 contro 5,7% GPT-5.5. Su Hex Analytics, per l’analisi dati, il modello arriva al 90%.
Per chi costruisce agenti che completano task di sviluppo in autonomia, questi numeri hanno un significato pratico immediato: meno interventi manuali, meno iterazioni, più lavoro completato correttamente. Abbiamo visto l’impatto di questo tipo di salto qualitativo anche con i nostri clienti nei progetti di trasformazione AI.
Confronto: Claude Fable 5 vs GPT-5.5 vs Opus 4.8
| Metrica | Fable 5 | GPT-5.5 | Opus 4.8 |
|---|---|---|---|
| SWE-bench Pro | 80,3% | 58,6% | 13,4% |
| FrontierCode Diamond | 29,3% | 5,7% | — |
| Context window | 1M token | 128K | 200K |
| Prezzo input (1M token) | $10 | $5 | $5 |
| Prezzo output (1M token) | $50 | $30 | $25 |
Fonte: Anthropic, OpenAI. Prezzi in dollari per milione di token via API, giugno 2026.
La sicurezza: lo strato che Mythos non aveva
Mythos 5 è rimasto inaccessibile al pubblico a lungo proprio perché i test governativi - tra cui quelli dell’UK AISI - lo hanno classificato come eccessivamente capace in ambiti sensibili. Anthropic ha risposto con un sistema di classificatori che intercettano le richieste prima che raggiungano il modello base: meno del 5% del traffico viene reindirizzato su Opus 4.8, che risponde con le sue misure standard.
Il routing aggiuntivo introduce un elemento nuovo da gestire nelle pipeline: i rifiuti parziali. Se una richiesta legittima finisce nel 5% intercettato, l’applicazione riceve una risposta di Opus 4.8 invece di Fable 5, senza segnalazione esplicita. Anthropic consiglia di gestire questo caso con nuovi meccanismi API per rilevare i fallback automatici - un costo di implementazione che prima non esisteva.
Rimane un’altra questione aperta: durante i test governativi, l’UK AISI ha registrato progressi verso un “universal jailbreak” del modello. I guardrail attenuano il rischio, ma Anthropic stessa ammette che la soluzione è “dichiarata, non risolta”.
Il prezzo che obbliga a scegliere
$10 per milione di token in input, $50 in output. Esattamente il doppio di Claude Opus 4.8 ($5/$25) e il doppio di GPT-5.5 in input ($5/$30).
Fino al 22 giugno 2026 gli abbonati Pro, Max, Team ed Enterprise possono usare Fable 5 senza costi aggiuntivi. Dopo quella data, il consumo è separato - e la domanda diventa concreta per ogni caso d’uso: il miglioramento di performance giustifica il costo doppio?
Per un agente di coding che gira H24 completando task complessi, la risposta può essere sì: meno errori significa meno iterazioni, il costo per token è alto ma il costo totale per task completato scende. Per un chatbot di customer service che gestisce migliaia di conversazioni al giorno su domande standard, il rapporto si inverte rapidamente. GPT-5.5 è già integrato in più toolchain aziendali e costa la metà: per la maggior parte del lavoro di routine, è difficile giustificare il delta.
I problemi che i benchmark non mostrano
Simon Willison - tra i commentatori tecnici più seguiti sul mondo AI - ha definito Fable 5 “slow, expensive”, con guardrail che “si attivano abbastanza spesso” da richiedere nuovi meccanismi di gestione nelle applicazioni. Non è una critica all’utilità del modello, ma una constatazione dei costi operativi reali che le tabelle comparative non catturano.
C’è poi la questione della conservazione dei dati: Anthropic mantiene le conversazioni per 30 giorni per monitoraggio anti-abuso. Per aziende in settori regolati - finanza, sanità, legale - è un elemento che richiede valutazione legale prima dell’adozione, indipendentemente dalla qualità del modello. Non è un blocco assoluto, ma è un passaggio che molte aziende italiane tendono a sottovalutare fino a quando non diventa un problema di compliance.
Il risultato pratico è che il profilo di adozione di Fable 5 è più stretto di quanto i benchmark suggeriscano. Anthropic stessa posiziona il modello per usi “dove wrong answers are expensive” - ovvero dove un errore ha un costo reale e misurabile. È una categoria precisa, non una categoria ampia.
Quando ha senso Claude Fable 5
✓ Ha senso
- Agenti AI che fanno coding in autonomia
- Analisi di documenti molto lunghi (>100K token)
- Task dove un errore costa più del token
- Ricerca e ragionamento complesso multi-step
✗ Non ha senso
- Chatbot e customer service standard
- Content generation di routine
- Automazioni semplici e ripetitive
- Settori con compliance dati stringente
La soglia di convenienza dipende dal tipo di task, non dal benchmark assoluto.
Per chi ha senso, per chi no
Ha senso quando stai costruendo un agente che deve completare task di sviluppo in autonomia e dove un errore ha un costo misurabile. Ha senso per l’analisi di documenti molto lunghi - il milione di token di contesto è reale e funziona. Ha senso per la ricerca e i task di ragionamento complesso dove la differenza rispetto a Opus 4.8 è visibile in produzione.
Per tutto il resto - automazioni di routine, formazione interna, content generation, flussi dove Opus 4.8 risolve già il problema all’80% - il costo doppio è difficile da giustificare. GPT-5.5, a metà prezzo in input e con integrazione nativa in più ecosistemi aziendali, è spesso la scelta più pragmatica.
La domanda giusta non è se Claude Fable 5 sia il modello migliore in assoluto - probabilmente sì nei task per cui è stato ottimizzato. La domanda giusta è se sia il modello giusto per il caso d’uso specifico. E la risposta dipende molto più dal tipo di task che dai numeri del benchmark.