STRUMENTI AI 5 min

Claude Code: 4 trucchi per consumare meno token

Claude Code brucia token velocemente — specie con Opus. Ecco 4 tecniche concrete per ridurre il consumo, allungare le sessioni e lavorare senza interruzioni: /model opusplan, /compact, ultrathink e la Caveman Mode.

Stai usando Claude Code seriamente e ti sei già bloccato sui limiti di utilizzo. Non è un problema di quanto usi lo strumento — è un problema di come lo usi.

Claude Code in modalità Opus può bruciare l’equivalente di centinaia di migliaia di token in una singola sessione complessa. Non perché il task lo richieda, ma perché la maggior parte delle persone usa lo strumento nella configurazione di default, che è ottimizzata per la qualità, non per l’efficienza.

Quattro aggiustamenti concreti cambiano questa dinamica.

1. /model opusplan: Opus dove serve, Sonnet per tutto il resto

Il primo errore che fa quasi chiunque è usare Claude Opus per tutto. Opus è il modello più capace, ma consuma token a una velocità che Sonnet non avvicina neanche. Il problema è che la maggior parte del lavoro in una sessione di coding non richiede Opus.

Il comando /model opusplan risolve questo con una strategia ibrida: Opus entra solo in Plan Mode — quando chiedi a Claude di ragionare sull’architettura, pianificare l’approccio, analizzare un problema complesso. Per tutto il resto — scrivere codice, modificare file, eseguire tool, rispondere a follow-up — usa automaticamente Sonnet 4.6.

Sonnet 4.6 nella pratica è più che sufficiente per il coding quotidiano. Chi lo usa intensamente sa che la differenza con Opus si vede sui task di ragionamento complesso, non sulla generazione di codice standard. La sessione diventa molto più lunga a parità di costo.

Come attivare /model opusplan

Step 1
Apri una sessione Claude Code e digita /model opusplan
Step 2
Claude conferma la modalità ibrida: Opus per Plan Mode, Sonnet per esecuzione
Step 3
Usa Shift+Tab per entrare in Plan Mode sui task complessi — resto della sessione su Sonnet

Configurazione /model opusplan: Opus solo per la fase di pianificazione

2. /compact: Claude rilegge tutto ogni volta

C’è un comportamento di Claude Code che quasi nessuno considera quando ragiona sui token: Claude rilegge l’intera cronologia della conversazione ad ogni singolo messaggio. Una chat lunga 50 turni significa che ogni nuovo messaggio porta con sé il peso di tutti e 50 i turni precedenti.

Il comando /compact risolve questo comprimendo tutta la storia della conversazione in un riassunto denso. Claude estrae le decisioni chiave, i cambiamenti al codice, il contesto importante — e lo condensa in una frazione dei token originali. La conversazione riparte da questo riassunto invece che dall’intera storia.

Due regole pratiche per usarlo bene:

  • Non aspettare il limite. Usa /compact dopo ogni milestone importante — hai completato una feature, risolto un bug complesso, fatto una sessione di debug. Compattare presto mantiene la qualità del contesto; compattare tardi spesso degrada già le risposte.
  • Guida cosa preservare. Puoi aggiungere istruzioni: /compact Preserva le decisioni architetturali e i test case. Claude darà priorità a quel contesto nel riassunto.

Chi usa Claude Code per sessioni lunghe — ore di lavoro continuo su un codebase complesso — vede un impatto diretto sul numero di sessioni che riesce a completare prima di raggiungere i limiti.

3. ultrathink: più token adesso, meno token totali

Questo sembra controintuitivo al primo ascolto: aggiungere ultrathink in fondo a un prompt aumenta i token consumati da Claude sul momento. Ma riduce i token totali della sessione su task complessi.

Il meccanismo: la parola chiave ultrathink forza Claude ad allocare fino a circa 32.000 token di ragionamento interno prima di scrivere una singola riga di codice. Claude pensa al problema in modo esteso, considera edge case, pianifica l’implementazione — prima di agire.

Il risultato è che Claude fa meglio al primo tentativo. Meno iterazioni, meno correzioni, meno “riprova con questo approccio”. Su task dove normalmente servono 5-6 turni di correzione, ultrathink spesso arriva alla soluzione in 1-2. Il costo netto della sessione scende.

Esistono varianti con budget di thinking diverso: think (~4.000 token), think hard (~10.000 token), ultrathink (~32.000 token). Riservare ultrathink ai task davvero complessi — architetture, debugging difficile, refactoring su codebase sconosciuta — è la strategia più efficiente.

Budget thinking: quando usare quale livello
think
~4.000 token
Debugging standard, refactoring semplice, follow-up
think hard
~10.000 token
Decisioni architetturali, integrazioni API, design pattern
ultrathink
~32.000 token
Problemi complessi, codebase sconosciuta, ottimizzazione difficile

Budget di thinking per livello — usare ultrathink solo dove il guadagno in qualità giustifica il costo

4. Caveman Mode: Claude parla come un essere umano normale (in modo molto più corto)

Chi usa Claude Code per molte ore nota un pattern: Claude è verboso. Parafrasa, aggiunge formule di cortesia, spiega cosa sta per fare prima di farlo, riassume quello che ha appena fatto dopo averlo fatto. Ogni risposta ha 3-4 frasi di overhead che non aggiungono informazione utile.

Moltiplicato per una sessione di lavoro lunga, questo si traduce in una quantità significativa di token sprecati in chiacchiere.

La Caveman Mode è una skill per Claude Code — un modulo di istruzioni installabile — che cambia questo comportamento alla radice. Attivata, Claude elimina articoli, filler words (“praticamente”, “sostanzialmente”, “in realtà”), formule di apertura (“certamente, sarò felice di aiutarti”), perifrasi. Le risposte diventano telegrafiche ma tecnicamente complete.

Esempio della differenza:

Senza Caveman Mode

”Certamente! Il problema che stai riscontrando è probabilmente causato dal fatto che il token di autenticazione utilizza un operatore di confronto errato. Nello specifico, il controllo della scadenza usa < invece di <=. Ecco come correggere il problema:“

Con Caveman Mode

”Bug in auth middleware. Token expiry check usa < invece di <=. Fix:“

La stessa informazione — meno del 40% dei token

Il risparmio stimato sulle risposte è circa del 75%. Su sessioni lunghe, dove Claude risponde decine di volte, l’impatto cumulativo è rilevante. La skill può essere disattivata con “normal mode” quando serve più verbosità — per esempio su output rivolti a terzi o documentazione.

Si installa come qualsiasi altra skill per Claude Code: un file Markdown con le istruzioni che Claude carica dinamicamente. Non occupa context window in modo permanente, solo quando attivata.

Usarli insieme

I quattro approcci si combinano in modo naturale. Una sessione efficiente di Claude Code inizia con /model opusplan e Caveman Mode attiva. Si usa /compact al termine di ogni fase di lavoro significativa. ultrathink entra solo quando il problema è genuinamente complesso.

Non si tratta di rinunciare a qualità. Sonnet 4.6 è più che sufficiente per la maggior parte del coding. Il pensiero esteso di ultrathink produce risultati migliori di Opus usato in modo standard su task difficili. Le risposte telegrafiche di Caveman Mode sono più leggibili delle risposte verbose, non meno.

L’efficienza con Claude Code non è un compromesso — è una configurazione migliore dello strumento che hai già.

Per chi vuole esplorare il sistema di skill in modo più approfondito, abbiamo scritto una guida completa alle Claude Skills — cosa sono, come si creano, e quando usarle al posto di Projects e MCP.

Come si riducono i token consumati con Claude Code?

Quattro tecniche principali: usare /model opusplan per delegare il coding a Sonnet (molto più economico di Opus), eseguire /compact regolarmente per comprimere la cronologia della conversazione, usare la parola chiave 'ultrathink' per forzare ragionamento profondo prima di scrivere codice (meno rework = meno token totali), e installare la Caveman Mode skill per ridurre la verbosità delle risposte di Claude del ~75%.

Cos'è /model opusplan in Claude Code?

/model opusplan è una modalità ibrida che usa Claude Opus per la pianificazione (quando si entra in Plan Mode) e Claude Sonnet per tutto il resto — coding, editing, tool use. Dato che Opus consuma token molto più velocemente di Sonnet, questo approccio riduce significativamente il costo complessivo della sessione mantenendo la qualità di ragionamento di Opus dove serve.

Cos'è /compact in Claude Code e quando usarlo?

/compact è un comando che comprime tutta la cronologia della conversazione in un riassunto sintetico. È utile perché Claude rilegge l'intera chat ad ogni messaggio: più la conversazione è lunga, più token vengono consumati a ogni turno. Usare /compact dopo ogni milestone importante (non aspettare di avvicinarsi al limite) mantiene il contesto gestibile senza perdere informazioni critiche.

Cos'è ultrathink in Claude Code?

Ultrathink è una parola chiave che, aggiunta in fondo a un prompt, forza Claude ad allocare fino a ~32.000 token di ragionamento interno prima di scrivere una singola riga di codice. Il paradosso: consuma più token nel breve termine, ma elimina le iterazioni — Claude fa meglio al primo tentativo, riducendo il costo complessivo della sessione su task complessi.

Cos'è la Caveman Mode per Claude Code?

La Caveman Mode è una skill installabile in Claude Code che cambia radicalmente lo stile comunicativo di Claude: elimina articoli, filler words ('praticamente', 'sostanzialmente', 'ovviamente'), formule di cortesia e perifrasi. Le risposte diventano telegrafiche ma tecnicamente complete. Il risparmio di token sulle risposte è circa del 75% — significativo su sessioni lunghe dove Claude 'chiacchiera' molto.

Qual è la differenza tra i modelli di Claude in termini di consumo token?

Claude Opus è il modello più capace ma brucia token molto più velocemente di Sonnet. Claude Sonnet 4.6 è nella pratica più che sufficiente per il 90% delle operazioni di coding in Claude Code. Claude Haiku è il più economico ma meno capace. La strategia /model opusplan usa Opus solo per la fase di pianificazione e Sonnet per tutto il resto, ottenendo il meglio di entrambi.