Il mercato dell’IA è in fermento, e ogni nuovo modello promette di “migliorare tutto”. Ma cosa cambia davvero con Claude Opus 4.7? Lasciamo da parte le promesse esagerate e analizziamo le novità, i prezzi API e l’impatto reale per chi usa questi modelli in azienda — perché tra annunci roboanti e la pratica quotidiana c’è sempre un certo divario.
Ho voluto testare Claude Opus 4.7 in scenari concreti per capire dove aggiunge valore e dove invece richiede cautela. Uscito il 16 aprile 2026, si posiziona come il modello più capace disponibile al pubblico — secondo solo a Claude Mythos, ancora in preview riservata.
Benchmark Reali: Dove Claude Opus 4.7 Vince (e Dove No)
I benchmark in azienda contano solo se parlano di task reali. Partiamo dai numeri di Opus 4.7:
- SWE-bench Pro (risoluzione bug GitHub): dal 53% di Opus 4.6 al 64.3%
- Analisi grafici: dall’84.7% al 91%
- MCP-Atlas (tool use per agenti): 77.3% — primo tra tutti i modelli disponibili
- BrowseComp (web research): 79.3% — in calo rispetto all’83.7% di Opus 4.6
Il dato del BrowseComp è interessante: Claude arretra nella ricerca web rispetto alla versione precedente. Chi usa Claude per attività di research autonomo dovrebbe tenerlo presente.
Sul fronte benchmark, aleggia il “fattore Mythos”: Anthropic ha già mostrato che il suo modello prossimo, Claude Mythos, raggiunge il 77.8% su SWE-bench Pro — contro il 64.3% di Opus 4.7. Sembra quasi una strategia precisa: Opus 4.7 è il nostro meglio disponibile oggi, ma preparatevi a qualcosa di ancora più grande.
Claude Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro: Confronto Completo
Opus 4.7 non compete nel vuoto: si scontra con GPT-5.4 (uscito il 5 marzo 2026) e Gemini 3.1 Pro (febbraio 2026). Ecco il quadro reale:
| Benchmark | Claude Opus 4.7 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|
| SWE-bench Pro (coding) | 64.3% ✓ | 57.7% | 54.2% |
| BrowseComp (web research) | 79.3% | 89.3% ✓ | 85.9% |
| MCP-Atlas (tool use) | 77.3% ✓ | 68.1% | 73.9% |
| Prezzo input (per 1M token) | $5 | $2.50 | $2 ✓ |
| Prezzo output (per 1M token) | $25 | $15 | $12 ✓ |
| Context window | 200K token | 128K token | 2M token ✓ |
La lettura pratica: Claude è il migliore per coding e agenti. GPT-5.4 vince sulla ricerca web. Gemini 3.1 Pro è il più conveniente e ha il context window più ampio — ideale per analisi di documenti lunghi. Nessun modello domina su tutto.
Le Nuove Funzionalità di Claude Opus 4.7: Cosa Conta
Al di là dei numeri, le funzionalità sono ciò che fa la differenza nel lavoro quotidiano. Vediamole:
- Adaptive Thinking: Prima si doveva specificare il livello di ragionamento. Ora Claude decide autonomamente quanto “pensare” in base al task. Un post LinkedIn richiede meno sforzo di una dashboard complessa, e il modello si adatta. Questo significa efficienza e meno sprechi di token.
- Effort X High: Nuovo livello di ragionamento tra “High” e “Max”. Il “Max” era potente ma costoso, utile solo per coding estremo. “X High” trova il giusto equilibrio per task impegnativi senza esagerare sul costo.
- Vision potenziata: La capacità di analizzare immagini passa da 1.15 a 3.75 megapixel. Utile per grafici ad alta risoluzione, documenti visivi complessi, analisi di screenshot dettagliati.
- Memory Management per Agenti: Opus 4.7 sfrutta meglio i file di memoria che Claude stesso scrive durante sessioni agentiche lunghe. Utile per agenti che accumulano contesto su più sessioni consecutive.
- Knowledge Cutoff aggiornato: Da maggio 2025 a gennaio 2026. Le risposte su eventi recenti sono più accurate.
- Task Budgets (via API): Possibile impostare un limite di token per un workflow. Claude si autoregola per completare il task entro quel budget, evitando di fermarsi a metà. Controllo concreto sui costi operativi per chi sviluppa soluzioni su misura.
- Ultra Review: Analisi approfondita di codice o progetti digitali nel cloud di Anthropic. Ho testato questa funzione sul sito Martes AI: ha rilevato errori di traduzione, incoerenze nel calcolatore di risparmio e persino elementi grafici obsoleti. Tre review gratuite, poi circa $520 a review.
- Automode per Claude Code: Gli utenti Max possono lasciare che Claude gestisca i permessi in autonomia, con un controllo di sicurezza integrato: si ferma se un’azione è potenzialmente rischiosa.
Costi e Prezzi API: La Verità
Qui serve chiarezza. Anthropic ha mantenuto il prezzo API invariato rispetto a Opus 4.6: $5 per milione di token in input, $25 per milione in output. Nessun aumento nominale.
Il punto è un altro: il nuovo tokenizer di Opus 4.7 può generare fino al 35% più token per lo stesso testo in input. Tradotto: a parità di task, paghi fino al 35% in più. Non è un aumento di listino, ma l’effetto pratico sui costi operativi è lo stesso.
Inoltre, l’extended thinking della versione precedente è stato sostituito dal nuovo livello X High. Chi ha workflow basati su quella logica dovrà adattarsi.
Opus 4.6
- $5 input / $25 output per 1M token
- Vision fino a 1.15 MP
- Knowledge Cutoff: Maggio 2025
- Ragionamento con Extended Thinking
- BrowseComp: 83.7%
Opus 4.7
- $5/$25 (stesso prezzo, ma tokenizer +35%)
- Vision fino a 3.75 MP
- Knowledge Cutoff: Gennaio 2026
- Adaptive Thinking + X High Effort
- Task Budgets via API
- Nuova Ultra Review
- SWE-bench Pro: 64.3%
Confronto tra le principali caratteristiche di Claude Opus 4.6 e 4.7.
Test sul Campo: Adaptive Thinking in Azione
Ho messo alla prova l’Adaptive Thinking su due scenari opposti.
Task semplice — post LinkedIn: Claude ha impostato un livello basso di thinking, motivando che per un task creativo un ragionamento esteso non aggiunge valore. Risultato corretto: efficienza nel ragionamento, meno spreco di risorse.
Task complesso — dashboard HTML interattiva: A partire dalle statistiche YouTube (video più performanti, titoli che attraggono, conversione degli short), Claude ha impostato thinking medio-alto e generato una dashboard completa con grafici e dati analitici. Ha fatto emergere spunti concreti come l’efficacia del termine “Cowork” nei titoli o la scarsa conversione degli short.
Il Ciclo di Rilascio dei Modelli AI: Una Riflessione
- Quando un modello esistente inizia a degradare nelle prestazioni (es. abbassamento del reasoning effort come accaduto con Opus 4.6), è spesso un segnale.
- Le aziende AI potrebbero abbassare temporaneamente le prestazioni del modello attuale per creare un contrasto più netto col successivo.
- Questo rende il nuovo modello “molto più potente” di quanto non sia in realtà — effetto marketing efficace, ma che richiede cautela.
- Valutare sempre i modelli su task propri, non solo sui benchmark ufficiali.
Ciclo di rilascio dei nuovi modelli e percezione delle prestazioni.
Claude Mythos: Il Modello che Anthropic Non Rilascia (Ancora)
L’ombra lunga di questo lancio è Claude Mythos. Già disponibile in preview riservata dall’8 aprile 2026, Mythos non è accessibile al pubblico — e probabilmente non lo sarà presto.
I motivi sono di sicurezza: nei test pre-rilascio, Mythos ha identificato migliaia di vulnerabilità zero-day sconosciute in tutti i principali sistemi operativi e browser, riproducendo exploit funzionanti nell’83% dei casi. Una capacità che rivaleggia con quella di ricercatori di sicurezza esperti — e che Anthropic ha scelto di non rendere pubblica.
Sul benchmark SWE-bench Pro, Mythos segna 77.8% contro il 64.3% di Opus 4.7. Un salto significativo. La domanda reale non è “quando esce Mythos” — è se uscirà mai in forma non censurata.
La “Furbata” del Degrado Controllato
Un aspetto che mi ha lasciato riflettere è il degrado delle prestazioni di Opus 4.6 nell’ultima settimana prima del lancio di 4.7. Ho notato un abbassamento del reasoning effort settato da Anthropic lato server. Il paragone tra un modello “depotenziato” e il nuovo è ovviamente favorevole a quest’ultimo, creando un effetto “significativo” che non corrisponde sempre alla realtà. È una dinamica da tenere presente nel settore AI.
Conclusioni: Opportunità e Cautela
Claude Opus 4.7 offre miglioramenti concreti. L’Ultra Review e i Task Budgets via API sono un vero passo avanti nel controllo e nell’efficienza per chi sviluppa soluzioni AI su misura. L’Adaptive Thinking ottimizza l’uso dei token in modo intelligente. Il primato su coding e tool use è reale.
Tuttavia: il costo effettivo aumenta fino al 35% per via del nuovo tokenizer, il BrowseComp è peggiorato rispetto a 4.6, e chi ha workflow basati su extended thinking dovrà adattarsi. Il confronto con GPT-5.4 non ha un vincitore assoluto — dipende dal task.
Come sempre: non cedere agli entusiasmi del momento. Testare su scenari propri e valutare in base alle esigenze concrete dell’azienda.
L’innovazione è costante, ma la sua applicazione strategica è ciò che determina il vero valore.