Solo l’8,2% delle aziende italiane con almeno 10 dipendenti usa l’AI nei processi operativi. E tra quelle che ci provano, una delle ragioni principali per cui i progetti rimangono bloccati in prototipo è questa: portare un agente AI in produzione richiede mesi di lavoro infrastrutturale prima ancora di toccare la logica applicativa. Sandbox sicuri, state management, autenticazione, recovery dagli errori, scaling. Tutto da costruire. Claude Managed Agents, annunciato l’8 aprile 2026 in public beta, prova a cambiare questa equazione.
Risposta diretta: Claude Managed Agents è un servizio sulla Claude Platform che fornisce harness, sandbox e infrastruttura di stato già pronti per portare un agente Claude in produzione. Invece di costruire l’intero stack da zero, lo sviluppatore ottiene un ambiente gestito dove l’agente può eseguire codice, leggere file, navigare il web e chiamare API esterne in modo sicuro. Il risultato dichiarato: da prototipo a produzione in giorni, non mesi. Accessibile da subito a tutti gli account API senza lista d’attesa.
Il problema reale: non il modello, ma l’infrastruttura attorno al modello
Costruire un proof of concept di un agente AI richiede un pomeriggio. Portarlo in produzione, nel 2026, richiede ancora settimane: configurare un sandbox sicuro dove l’agente possa eseguire codice senza toccare sistemi critici, gestire le credenziali senza esporle nelle variabili d’ambiente, implementare il recovery quando un container crasha durante un task lungo, scalare l’orchestrazione quando più agenti girano in parallelo su task diversi.
In Martes AI lo vediamo con i clienti: il gap tra “abbiamo un agente che funziona in locale” e “abbiamo un agente in produzione che regge il carico reale” è consistente. Il costo di colmarlo è spesso quello che blocca l’adozione, non la qualità del modello. Questo è il problema che Anthropic sta affrontando con un’architettura ripensata.
Come funziona: Session, Harness e Sandbox disaccoppiati
Il principio tecnico centrale di Claude Managed Agents è la virtualizzazione e il disaccoppiamento dei tre componenti fondamentali di ogni agente. Ciascuno può essere sostituito o aggiornato senza disturbare gli altri, il che è la condizione necessaria per avere un sistema recuperabile, scalabile e manutenibile nel tempo.
La Session è il log append-only di tutto ciò che è accaduto nella conversazione. Sta fuori dall’harness: questo significa che un’istanza harness può crashare e ripartire dal punto esatto dove si era fermata tramite una chiamata wake(sessionId), senza perdere contesto. Il log è durevole per design.
L’Harness è il ciclo che chiama Claude e instrada le tool call verso l’infrastruttura corretta. Nella nuova architettura è stateless: non è accoppiato a un container specifico, chiama le sandbox come strumenti stateless via interfaccia standardizzata (execute(name, input) → string). Se un container muore durante l’esecuzione, l’harness riceve un errore di tool call che Claude può decidere di riprovare autonomamente.
La Sandbox è l’ambiente di esecuzione dove Claude opera concretamente. Con il nuovo design, i container sono intercambiabili: inizializzazione via provision({resources}), rimpiazzo trasparente in caso di guasto. Le credenziali non raggiungono mai le sandbox direttamente - vengono gestite via vault esterno o iniettate nella fase di provisioning, mai esposte al loop principale.
I tre componenti disaccoppiati di Claude Managed Agents
L’architettura di Claude Managed Agents: ciascun componente è indipendente e sostituibile
I benchmark: quanto guadagna davvero in produzione
Anthropic riporta due risultati nei test interni. Sul Time-to-First-Token: riduzione del 60% al percentile 50 e oltre il 90% al percentile 95. Il miglioramento al p95 è quello più rilevante - significa che i casi peggiori (task lunghi, container sotto stress) migliorano molto di più di quelli tipici. Il motivo tecnico è che l’inferenza ora parte immediatamente dal log di sessione prima che il container sia completamente provisionato.
Sul tasso di successo dei task: nei test strutturati di generazione file, il servizio ha migliorato il completamento di 10 punti percentuali rispetto a un loop di prompting standard, con i guadagni più alti sui problemi più difficili. È un dato che merita attenzione: non è un miglioramento uniforme, ma concentrato nei casi complessi dove la robustezza dell’architettura fa effettivamente la differenza.

Chi lo usa già: Notion, Sentry, Rakuten, Asana
I primi adottanti in beta non sono startup sperimentali. Notion usa gli agenti per permettere ai team di delegare task aperti senza configurazione infrastrutturale. Sentry ha integrato il servizio direttamente nel suo tool di debugging esistente. Rakuten ha costruito agenti specializzati per diverse funzioni aziendali, ciascuno deployato in circa una settimana - in linea con la promessa di “giorni, non mesi”. Asana e Vibecode completano il gruppo dei primi adottanti.
Il punto che mi sembra più significativo: tutti questi casi hanno in comune che sono aziende con team tecnici competenti che hanno scelto il servizio gestito nonostante la capacità di costruire l’infrastruttura da soli. Quando chi potrebbe farlo sceglie di non farlo, di solito è perché il costo di manutenzione dell’infrastruttura nel tempo supera quello della costruzione iniziale. Se sei curioso di come questi modelli si applicano al contesto italiano, vedi anche la nostra analisi su agenti AI per aziende.
Self-managed vs Claude Managed Agents: quando ha senso ciascuno
Il servizio gestisce harness, stato, sandbox e autenticazione. Non gestisce la logica dell’agente, la definizione dei tool, le guardrail applicative, l’integrazione con i sistemi esistenti. Lo sviluppatore rimane responsabile di definire cosa l’agente deve fare, con quali strumenti e con quali vincoli.
| Caratteristica | Self-managed (LangGraph / Temporal) | Claude Managed Agents |
|---|---|---|
| State management | Da costruire o configurare | Incluso (Session log) |
| Sandbox sicuro | Da configurare | Incluso |
| Autenticazione | Da gestire | Vault gestito |
| Recovery automatico | Temporal: sì / LangGraph: da implementare | Incluso (wake()) |
| Modelli supportati | Qualsiasi (GPT, Gemini, locale) | Solo Claude |
| Controllo granulare | Totale | Limitato |
| Vendor lock-in | No | Sì (Anthropic) |
| Tempo al primo deploy | Settimane / mesi | Giorni |
Quando scegliere quale approccio
- → Vuoi andare in produzione in pochi giorni
- → Usi già Claude e non hai vincoli di modello
- → Task lunghi e asincroni (ore, non secondi)
- → Vuoi meno infrastruttura da manutenere
- → Team piccolo senza DevOps dedicato
- → Serve flessibilità di modello
- → Dati sensibili che non possono uscire dalla tua infra
- → Controllo granulare sul loop dell’agente
- → Requisiti normativi stringenti (GDPR, NIS2)
- → Già investito in LangGraph o Temporal
Guida rapida alla scelta tra approccio gestito e self-managed per gli agenti AI
I limiti da valutare prima di adottarlo
Il vendor lock-in è il vincolo principale: Claude Managed Agents funziona esclusivamente con i modelli Claude di Anthropic. Se il vostro caso d’uso richiede flessibilità di modello - confrontare GPT-4o con Claude su task critici, usare modelli locali per dati sensibili, integrare modelli specializzati di terze parti - il servizio non è la scelta giusta. Framework come LangGraph, Temporal o AutoGen rimangono la strada per chi vuole indipendenza dal fornitore.
Il pricing non è ancora pubblico nella fase beta. Tutti gli account API di Anthropic possono accedere al servizio senza lista d’attesa - scelta insolita per un lancio di questo tipo, che segnala una priorità sulla diffusione rapida e sul feedback della community. Le condizioni economiche a regime non sono ancora definite, il che è un rischio da valutare per chi pianifica architetture di produzione su questa piattaforma.
C’è anche una questione più sottile sull’evoluzione del servizio. L’harness gestisce le trasformazioni di contesto specifiche per il modello corrente: quando i modelli Claude evolvono, l’harness evolve con loro. È un vantaggio in termini di manutenzione, ma significa anche che i comportamenti dell’agente possono cambiare a seguito di aggiornamenti del servizio - non solo dei tuoi cambiamenti al codice. Chi usa sistemi in produzione sa che la prevedibilità vale quanto la performance.
Per il mercato italiano, dove la maturità nell’adozione degli agenti AI è ancora bassa e dove il 72% delle PMI che implementano agenti non ha sistemi di misurazione adeguati, questo servizio potrebbe abbassare la barriera d’ingresso in modo significativo. Vedi anche i nostri casi studio su come le aziende italiane stanno affrontando la transizione agli agenti. La domanda che rimane aperta è se il risparmio sull’infrastruttura giustifichi la dipendenza da un singolo fornitore su un componente critico - e questa è una risposta che dipende molto dal contesto specifico di ciascuna azienda.