Stai usando Claude Code seriamente e ti sei già bloccato sui limiti di utilizzo. Non è un problema di quanto usi lo strumento — è un problema di come lo usi.
Claude Code in modalità Opus può bruciare l’equivalente di centinaia di migliaia di token in una singola sessione complessa. Non perché il task lo richieda, ma perché la maggior parte delle persone usa lo strumento nella configurazione di default, che è ottimizzata per la qualità, non per l’efficienza.
Quattro aggiustamenti concreti cambiano questa dinamica.
1. /model opusplan: Opus dove serve, Sonnet per tutto il resto
Il primo errore che fa quasi chiunque è usare Claude Opus per tutto. Opus è il modello più capace, ma consuma token a una velocità che Sonnet non avvicina neanche. Il problema è che la maggior parte del lavoro in una sessione di coding non richiede Opus.
Il comando /model opusplan risolve questo con una strategia ibrida: Opus entra solo in Plan Mode — quando chiedi a Claude di ragionare sull’architettura, pianificare l’approccio, analizzare un problema complesso. Per tutto il resto — scrivere codice, modificare file, eseguire tool, rispondere a follow-up — usa automaticamente Sonnet 4.6.
Sonnet 4.6 nella pratica è più che sufficiente per il coding quotidiano. Chi lo usa intensamente sa che la differenza con Opus si vede sui task di ragionamento complesso, non sulla generazione di codice standard. La sessione diventa molto più lunga a parità di costo.
Come attivare /model opusplan
/model opusplanConfigurazione /model opusplan: Opus solo per la fase di pianificazione
2. /compact: Claude rilegge tutto ogni volta
C’è un comportamento di Claude Code che quasi nessuno considera quando ragiona sui token: Claude rilegge l’intera cronologia della conversazione ad ogni singolo messaggio. Una chat lunga 50 turni significa che ogni nuovo messaggio porta con sé il peso di tutti e 50 i turni precedenti.
Il comando /compact risolve questo comprimendo tutta la storia della conversazione in un riassunto denso. Claude estrae le decisioni chiave, i cambiamenti al codice, il contesto importante — e lo condensa in una frazione dei token originali. La conversazione riparte da questo riassunto invece che dall’intera storia.
Due regole pratiche per usarlo bene:
- Non aspettare il limite. Usa
/compactdopo ogni milestone importante — hai completato una feature, risolto un bug complesso, fatto una sessione di debug. Compattare presto mantiene la qualità del contesto; compattare tardi spesso degrada già le risposte. - Guida cosa preservare. Puoi aggiungere istruzioni:
/compact Preserva le decisioni architetturali e i test case. Claude darà priorità a quel contesto nel riassunto.
Chi usa Claude Code per sessioni lunghe — ore di lavoro continuo su un codebase complesso — vede un impatto diretto sul numero di sessioni che riesce a completare prima di raggiungere i limiti.
3. ultrathink: più token adesso, meno token totali
Questo sembra controintuitivo al primo ascolto: aggiungere ultrathink in fondo a un prompt aumenta i token consumati da Claude sul momento. Ma riduce i token totali della sessione su task complessi.
Il meccanismo: la parola chiave ultrathink forza Claude ad allocare fino a circa 32.000 token di ragionamento interno prima di scrivere una singola riga di codice. Claude pensa al problema in modo esteso, considera edge case, pianifica l’implementazione — prima di agire.
Il risultato è che Claude fa meglio al primo tentativo. Meno iterazioni, meno correzioni, meno “riprova con questo approccio”. Su task dove normalmente servono 5-6 turni di correzione, ultrathink spesso arriva alla soluzione in 1-2. Il costo netto della sessione scende.
Esistono varianti con budget di thinking diverso: think (~4.000 token), think hard (~10.000 token), ultrathink (~32.000 token). Riservare ultrathink ai task davvero complessi — architetture, debugging difficile, refactoring su codebase sconosciuta — è la strategia più efficiente.
Budget di thinking per livello — usare ultrathink solo dove il guadagno in qualità giustifica il costo
4. Caveman Mode: Claude parla come un essere umano normale (in modo molto più corto)
Chi usa Claude Code per molte ore nota un pattern: Claude è verboso. Parafrasa, aggiunge formule di cortesia, spiega cosa sta per fare prima di farlo, riassume quello che ha appena fatto dopo averlo fatto. Ogni risposta ha 3-4 frasi di overhead che non aggiungono informazione utile.
Moltiplicato per una sessione di lavoro lunga, questo si traduce in una quantità significativa di token sprecati in chiacchiere.
La Caveman Mode è una skill per Claude Code — un modulo di istruzioni installabile — che cambia questo comportamento alla radice. Attivata, Claude elimina articoli, filler words (“praticamente”, “sostanzialmente”, “in realtà”), formule di apertura (“certamente, sarò felice di aiutarti”), perifrasi. Le risposte diventano telegrafiche ma tecnicamente complete.
Esempio della differenza:
”Certamente! Il problema che stai riscontrando è probabilmente causato dal fatto che il token di autenticazione utilizza un operatore di confronto errato. Nello specifico, il controllo della scadenza usa < invece di <=. Ecco come correggere il problema:“
”Bug in auth middleware. Token expiry check usa < invece di <=. Fix:“
La stessa informazione — meno del 40% dei token
Il risparmio stimato sulle risposte è circa del 75%. Su sessioni lunghe, dove Claude risponde decine di volte, l’impatto cumulativo è rilevante. La skill può essere disattivata con “normal mode” quando serve più verbosità — per esempio su output rivolti a terzi o documentazione.
Si installa come qualsiasi altra skill per Claude Code: un file Markdown con le istruzioni che Claude carica dinamicamente. Non occupa context window in modo permanente, solo quando attivata.
Usarli insieme
I quattro approcci si combinano in modo naturale. Una sessione efficiente di Claude Code inizia con /model opusplan e Caveman Mode attiva. Si usa /compact al termine di ogni fase di lavoro significativa. ultrathink entra solo quando il problema è genuinamente complesso.
Non si tratta di rinunciare a qualità. Sonnet 4.6 è più che sufficiente per la maggior parte del coding. Il pensiero esteso di ultrathink produce risultati migliori di Opus usato in modo standard su task difficili. Le risposte telegrafiche di Caveman Mode sono più leggibili delle risposte verbose, non meno.
L’efficienza con Claude Code non è un compromesso — è una configurazione migliore dello strumento che hai già.
Per chi vuole esplorare il sistema di skill in modo più approfondito, abbiamo scritto una guida completa alle Claude Skills — cosa sono, come si creano, e quando usarle al posto di Projects e MCP.