Un agente AI che gira su Opus 4.6 full-time costa, in media, 4-5 volte un agente equivalente su Sonnet 4.6. Per chi costruisce sistemi reali - non demo, non proof of concept - quella differenza non è una sfumatura di pricing: è spesso ciò che separa un progetto che va in produzione da uno che rimane un prototipo. Il 9 aprile 2026, Anthropic ha annunciato una risposta concreta a questo problema: l’advisor strategy.
Risposta diretta: l’advisor strategy è un pattern in cui un modello economico (Sonnet 4.6 o Haiku 4.5) esegue il task come executor, e consulta Opus 4.6 come advisor solo nei momenti critici. Opus non chiama strumenti, non produce output finale: restituisce un piano, una correzione, o un segnale di stop all’executor, che poi continua in autonomia. Risultato nei benchmark: +2,7 punti percentuali su SWE-bench Multilingual e -11,9% sul costo per task rispetto a Sonnet in solitaria. Disponibile in beta sulla Claude Platform senza lista d’attesa.
Come funziona: executor e advisor non si scambiano i ruoli
La separazione dei ruoli è la parte più importante da capire. L’executor (Sonnet o Haiku) gestisce il loop principale: chiama strumenti, legge i risultati, itera verso la soluzione. Fa tutto il lavoro ordinario. Quando incontra una decisione troppo complessa - un bivio strategico, un’ambiguità che non riesce a risolvere, un passaggio critico - chiama l’advisor tramite uno strumento dedicato.
L’advisor (Opus 4.6) riceve il contesto condiviso e risponde con un piano, una correzione o un segnale di interruzione. Non chiama mai strumenti in prima persona. Non produce mai output visibile all’utente. È esattamente ciò che il nome suggerisce: un consulente che interviene su richiesta, mai proattivamente.
Ogni consultazione Opus genera tipicamente 400-700 token - un’operazione puntuale, non un’esecuzione completa. Moltiplicato per un task da centinaia di step, il contributo di Opus rimane chirurgico. Il costo totale resta vicino ai livelli Sonnet, con l’intelligenza di ragionamento di Opus disponibile solo nei momenti che la richiedono davvero.
Il flusso dell’advisor strategy
Main Loop
orchestrazione task
Executor
Sonnet 4.6 / Haiku 4.5
chiama strumenti, itera
Advisor
Opus 4.6 (on-demand)
400-700 token per consulto
Executor riprende
continua in autonomia
L’advisor interviene solo quando l’executor è bloccato - mai proattivamente, mai in output all’utente
I numeri: cosa dicono davvero i benchmark
Anthropic ha pubblicato due set di dati al lancio. Il primo riguarda SWE-bench Multilingual, il benchmark standard per valutare la capacità degli agenti di risolvere issue reali su codebase in più linguaggi. Sonnet 4.6 solo: 72,1%. Sonnet 4.6 con Opus advisor: 74,8%. Un guadagno di 2,7 punti percentuali, ottenuto riducendo al contempo il costo per task dell’11,9%.
Il secondo set riguarda BrowseComp, il benchmark per la navigazione web complessa e la ricerca multi-step. Qui i numeri sono più sorprendenti: Haiku 4.5 solo raggiunge il 19,7%. Haiku 4.5 con Opus advisor arriva al 41,2% - più del doppio. Questo indica che il pattern è particolarmente efficace nei task dove la difficoltà non è l’esecuzione meccanica ma la pianificazione strategica intermittente.
Benchmark: solo vs. con Opus advisor
| Configurazione | SWE-bench ML | BrowseComp | Δ costo/task |
|---|---|---|---|
| Sonnet 4.6 solo | 72,1% | - | baseline |
| Sonnet 4.6 + Opus advisor | 74,8% (+2,7pp) | - | -11,9% |
| Haiku 4.5 solo | - | 19,7% | baseline |
| Haiku 4.5 + Opus advisor | - | 41,2% (+2x) | n.d. |
Fonte: Anthropic, aprile 2026. I dati di costo per la combinazione Haiku + advisor non sono stati pubblicati.
Un’osservazione che vale la pena fare: il +2,7pp su SWE-bench è reale ma non rappresenta un salto enorme. Sonnet con advisor non raggiunge le performance di Opus in solitaria sui benchmark più difficili. Il valore è nel rapporto qualità/costo: avvicinarsi alle performance di Opus spendendo significativamente meno per task. Una proposta concreta, non un’esagerazione di marketing.
Come si implementa: API, beta header e max_uses
L’implementazione è relativamente semplice per chi già usa le API Claude. Si aggiunge il beta header anthropic-beta: advisor-tool-2026-03-01 alle chiamate, poi si include il tool advisor_20260301 nella lista degli strumenti con il campo model impostato a claude-opus-4-6. Il parametro max_uses permette di limitare il numero massimo di consultazioni per singola richiesta - controllo diretto sui costi e sulla prevedibilità delle fatture.
I token advisor vengono riportati separatamente nel blocco usage della risposta. Per chi costruisce agenti in produzione, questa visibilità è operativamente utile: permette di ottimizzare i prompt dell’executor per ridurre le escalation inutili verso Opus, abbassando ulteriormente i costi nel tempo. Monitorare dove e quanto spesso il sistema chiede aiuto è già un segnale diagnostico in sé.
Perché questo cambia il calcolo per chi costruisce agenti
Il problema che l’advisor strategy risolve è concreto. La scelta tra Opus e Sonnet per un agente in produzione non è quasi mai solo tecnica: è una decisione di budget che influenza quale progetto si riesce a sostenere nel tempo. In Martes AI lo vediamo con i clienti che portano agenti dalla fase di prototipo alla produzione reale - nei nostri casi studio emerge spesso questo trade-off. Usare Opus full-time per ogni task, compresi quelli ordinari, è come assumere un consulente senior per rispondere alle email di routine.
Il pattern che l’advisor strategy formalizza non è nuovo: chi conosce l’architettura degli agenti multi-livello sa che routing ed escalation sono soluzioni consolidate per ottimizzare costi. La novità di Anthropic è renderlo nativo nella piattaforma, con un’integrazione API pulita e supporto al monitoraggio granulare dei costi. Invece di costruire questa logica a mano con chiamate sequenziali, orchestratori custom, o pattern LangGraph, è disponibile come strumento di prima classe per chi già lavora con agenti AI in produzione.
I limiti che vale la pena nominare
Il vincolo più significativo è il vendor lock-in: l’advisor tool è un’implementazione proprietaria sulla Claude Platform. Chi vuole un pattern analogo su GPT-4o, Gemini, o modelli open source deve implementarlo manualmente. Il trade-off è di ecosistema: il pattern funziona, ma rimane vincolato a un singolo fornitore. Vale chiedersi se ci si sente a proprio agio con questa dipendenza per una parte critica dell’infrastruttura.
Siamo ancora in beta. Il beta header suggerisce che l’implementazione potrebbe cambiare. I team che valutano di adottarlo in sistemi critici dovrebbero considerare quanto quella dipendenza sia fragile se Anthropic decide di modificare il meccanismo o di includerlo in un piano a pagamento. Al momento non ci sono costi aggiuntivi oltre ai token, ma il pricing futuro è aperto.
Infine, il guadagno non è uniforme. Il +2,7pp su SWE-bench è reale ma contenuto. Il raddoppio su BrowseComp è più significativo ma riguarda uno scenario specifico. Prima di ottimizzare un sistema esistente con questo pattern, vale la pena valutare se il bottleneck è davvero la qualità delle decisioni strategiche o se sta altrove - nel context retrieval, nella struttura dei prompt, nella qualità dei tool. La diagnosi prima dell’ottimizzazione, sempre.
L’advisor strategy è uno strumento preciso: funziona bene quando il problema è quello che risolve. Se stai esplorando come strutturare un agente in produzione su Claude, vale la pena leggere anche il nostro articolo su Claude Managed Agents - la piattaforma su cui l’advisor tool si integra nativamente.