Quali modelli Claude supportano 1 milione di token di contesto?

Claude Opus 4.6 e Claude Sonnet 4.6 supportano entrambi la finestra di contesto da 1 milione di token in General Availability (GA), senza header beta e senza configurazioni aggiuntive. Con 1 milione di token si possono caricare migliaia di pagine di documenti o un intero codebase in una singola conversazione.

Quanto costa usare la context window da 1 milione di token di Claude?

Non c'è nessun sovrapprezzo per il long context. Opus 4.6 costa $5/$25 per milione di token (input/output) e Sonnet 4.6 costa $3/$15 per milione di token. Il prezzo per token è identico indipendentemente dalla lunghezza della richiesta: una richiesta da 900K token costa uguale per token a una da 9K.

Claude con 1M di contesto è meglio di GPT-5.4 e Gemini 3.1 Pro?

Sì, nei benchmark di retrieval su contesti lunghi. Sul benchmark MRCR v2 a 1 milione di token, Opus 4.6 raggiunge il 78.3% - più del doppio di GPT-5.4 (36.6%) e tre volte Gemini 3.1 Pro (25.9%). A 256K token Opus 4.6 è al 91.9% contro il 79.3% di GPT-5.4.

Quante immagini o pagine PDF posso inviare a Claude in una richiesta?

Fino a 600 immagini o pagine PDF per singola richiesta, un aumento di 6 volte rispetto al precedente limite di 100. Questo permette di analizzare interi report aziendali, contratti multi-pagina o documentazione tecnica completa in un'unica chiamata API.

Serve un header beta per usare 1 milione di token via API Claude?

No. Dal marzo 2026 le richieste oltre 200K token funzionano automaticamente senza header beta né configurazioni speciali. Se avevi il vecchio header beta, viene semplicemente ignorato.

Su quali piattaforme è disponibile Claude con 1M di contesto?

La context window da 1 milione di token è disponibile su API Anthropic diretta, Claude.ai (piani Max, Team, Enterprise), Claude Code, Microsoft Azure Foundry e Google Cloud Vertex AI.

Cosa cambia per Claude Code con 1 milione di token?

Claude Code con 1M di contesto significa meno compattazioni della conversazione e più storia mantenuta intatta durante le sessioni di sviluppo. Gli utenti Max, Team ed Enterprise possono usare Opus 4.6 con il contesto completo, permettendo di lavorare su codebase interi senza perdere il filo.

Claude 1M token è utile per analisi legale e contratti?

Sì. Con 1 milione di token puoi caricare migliaia di pagine di contratti in una singola conversazione senza chunking o summarization. Claude mantiene il contesto completo e può fare cross-reference tra clausole, identificare incongruenze e analizzare l'intero corpus documentale in modo coerente.

Come si comportano i modelli AI concorrenti nel retrieval a 1M token?

Secondo il benchmark MRCR v2 (8-needle), a 1 milione di token Claude Opus 4.6 raggiunge il 78.3% di accuratezza nel retrieval. GPT-5.4 scende al 36.6% e Gemini 3.1 Pro al 25.9%. I dati di Gemini sono misurati da Context Arena sullo stesso benchmark, non auto-dichiarati da Google.

Claude 1M Token: Context Window, Benchmark e Prezzi

Claude Opus 4.6 e Sonnet 4.6 supportano 1 milione di token in GA. Benchmark MRCR v2 vs GPT-5.4 e Gemini 3.1 Pro, prezzi e casi d'uso per aziende.

Anthropic ha portato in General Availability la context window da 1 milione di token per Claude Opus 4.6 e Sonnet 4.6. Non è più beta, non servono header speciali, e soprattutto non c’è nessun sovrapprezzo per il contesto lungo.

Una richiesta da 900.000 token costa esattamente come una da 9.000 - stesso prezzo per token, stessi rate limit, nessun moltiplicatore nascosto.

Cosa sono 1 milione di token in pratica

1 milione di token corrisponde indicativamente a diverse centinaia di migliaia di parole. Per dare un riferimento concreto:

Un intero codebase aziendale caricato in una singola conversazione - niente più chunking o RAG per progetti di dimensioni medie
Migliaia di pagine di contratti analizzate mantenendo il contesto completo tra clausole e documenti correlati
Sessioni di agenti AI complete con tool calls, osservazioni e ragionamento intermedio senza dover svuotare la memoria
Fino a 600 immagini o pagine PDF in una singola richiesta - 6 volte il limite precedente di 100

Il punto chiave: niente più workaround ingegneristici. Niente summarization lossy, niente context clearing, niente chunking manuale. Carichi tutto, Claude lavora su tutto.

Benchmark: Claude Opus 4.6 vs GPT-5.4 vs Gemini a 1M token

Il confronto più interessante è su MRCR v2 (Multi-needle Retrieval over long Context, 8-needle) - il benchmark che misura quanto bene un modello recupera informazioni sparse in contesti molto lunghi. È il test più rilevante per capire se un modello è effettivamente utilizzabile con finestre di contesto larghe.

Benchmark MRCR v2 long context retrieval - Claude Opus 4.6 78.3%, Sonnet 4.6 65.1%, GPT-5.4 36.6%, Gemini 3.1 Pro 25.9% a 1 milione di token

Accuratezza nel retrieval (MRCR v2, 8-needle) al crescere del contesto: Opus 4.6 mantiene il 78.3% a 1M token, mentre GPT-5.4 e Gemini degradano significativamente. Fonte: blog ufficiale Anthropic.

MRCR v2 - Accuratezza retrieval a 1 milione di token

Claude Opus 4.678.3%

Claude Sonnet 4.665.1%

GPT-5.4 (OpenAI)36.6%

Gemini 3.1 Pro (Google)25.9%

Claude Sonnet 4.5 (precedente)18.5%

I numeri sono netti. Opus 4.6 al 78.3% - più del doppio di GPT-5.4 (36.6%) e tre volte Gemini 3.1 Pro (25.9%). Non è una differenza marginale. (Nota: i dati di Gemini sono misurati da Context Arena sullo stesso benchmark MRCR v2, non auto-dichiarati da Google.)

A 256K token la situazione è più ravvicinata: Opus al 91.9%, Sonnet al 90.6%, GPT-5.4 al 79.3%, Gemini 3.1 Pro al 59.1%. Ma è proprio quando il contesto si allarga che la differenza diventa abissale. E il contesto largo è esattamente lo scenario delle applicazioni aziendali reali - documenti completi, codebase interi, audit di processo.

Prezzi Claude 1M token: nessun sovrapprezzo long context

Questo è il dettaglio che cambia i conti per chi costruisce applicazioni AI:

Pricing API - marzo 2026

Claude Opus 4.6

$5 / $25

per milione di token (input / output)

Nessun moltiplicatore long context

Claude Sonnet 4.6

$3 / $15

per milione di token (input / output)

Nessun moltiplicatore long context

Per essere chiari: non esiste un pricing tier separato per le richieste lunghe. Una chiamata API da 1 milione di token di input con Opus 4.6 costa $5. Punto. Questo rende economicamente sostenibile usare il contesto lungo per casi d’uso aziendali come l’analisi documentale, la revisione di codebase, e gli agenti AI complessi.

Dove è disponibile: API, Claude Code e cloud

La context window da 1 milione di token è disponibile su tutte le piattaforme principali:

API Anthropic diretta - nessun header beta richiesto. Le richieste oltre 200K token funzionano automaticamente
Claude.ai - per utenti Max, Team ed Enterprise
Claude Code - meno compattazioni, più conversazione mantenuta intatta durante le sessioni di sviluppo
Microsoft Azure Foundry - integrazione nativa per chi è nell’ecosistema Microsoft
Google Cloud Vertex AI - per chi usa l’infrastruttura Google Cloud

Per gli sviluppatori: se usavate il vecchio header beta per il long context, viene semplicemente ignorato. Zero modifiche al codice.

Cosa cambia per Claude Code e gli sviluppatori

Per chi usa Claude Code quotidianamente - ed è uno strumento che usiamo anche noi in Martes AI - l’impatto è diretto. Le sessioni di sviluppo con Opus 4.6 ora hanno accesso all’intera finestra da 1M token, il che significa:

Meno compattazioni - la conversazione rimane intatta più a lungo, senza che Claude perda il contesto di quello che avete fatto insieme
Codebase interi in memoria - per progetti medio-grandi, Claude può tenere tutto il codice nel contesto senza dover cercare file ogni volta
Trace di agenti complete - per chi costruisce sistemi AI multi-agente, l’intera catena di ragionamento, tool calls e osservazioni resta disponibile

Perché il contesto lungo conta per le aziende

Il limite di contesto è sempre stato il collo di bottiglia pratico nell’uso dell’AI per lavoro reale. Quando lavori su documentazione legale, su audit di processo, su analisi di documenti aziendali - il contesto non basta mai.

Fino a ieri, la soluzione era ingegneristica: RAG (Retrieval Augmented Generation), chunking, summarization, context management. Funziona, ma aggiunge complessità architetturale e perde informazione. Con 1 milione di token nativi, molti di questi workaround diventano superflui per dataset di dimensioni medio-grandi.

Questo non significa che RAG sia morto - per dataset enormi (milioni di documenti) serve ancora un layer di retrieval. Ma per il caso d’uso tipico aziendale - analizzare qualche centinaio di pagine, revisionare un codebase, mantenere il contesto di un progetto - 1 milione di token è sufficiente senza architetture aggiuntive.