AGENTI AI 7 min

Prompt AI auto-miglioranti: il sistema con cui ottimizziamo gli agenti AI dei nostri clienti

I prompt degli agenti AI possono migliorarsi da soli, ciclo dopo ciclo, senza intervento umano. Abbiamo applicato il pattern Auto Research di Karpathy ai nostri agenti WhatsApp: da 6.42 a 8.00 su 10, +48% in conversione. Architettura, metriche e insight dal campo.

Il prompt di un agente AI conversazionale non è mai finito. È una distribuzione di probabilità che sposta la media dei risultati, e quella media si può misurare, confrontare e migliorare sistematicamente — esattamente come si ottimizza un modello di machine learning.

Da qualche mese applichiamo questa idea agli agenti WhatsApp che costruiamo per i nostri clienti. Il sistema — ispirato al pattern Auto Research di Karpathy che avevamo già analizzato in dettaglio — lo abbiamo adattato a un problema radicalmente diverso dal machine learning: ottimizzare le istruzioni conversazionali di un agente AI che parla con persone reali su WhatsApp.

Il prodotto si chiama Ambra — il nostro agente per la riattivazione lead. Viene configurato e personalizzato per ogni cliente, e poi sottoposto a un ciclo di ottimizzazione automatica che, su tutti i clienti che lo usano, produce in media un +20-25% sullo score complessivo rispetto al prompt iniziale.

Di seguito come funziona il sistema, con i numeri reali di un caso rappresentativo: da 6.42 a 8.00, senza intervento umano tra un ciclo e l’altro.

Il problema: come misuri la qualità di una conversazione WhatsApp?

Ambra gestisce conversazioni su WhatsApp. Non risponde a domande tecniche o recupera dati da database — costruisce un rapporto con un lead, gestisce obiezioni, calibra il tono e spinge verso la prenotazione di un appuntamento. È un lavoro sottile, dove la differenza tra un agente efficace e uno mediocre si misura in sfumature: un messaggio troppo lungo, un tono troppo formale, una CTA troppo vaga.

Il problema è che le sfumature non si misurano facilmente. Come costruisci una metrica oggettiva per “suona naturale su WhatsApp”?

La risposta che abbiamo trovato è usare un LLM judge con una rubrica strutturata. Non un giudizio binario pass/fail — una valutazione su tre dimensioni con scale 0-10 e criteri espliciti per ogni livello.

Le tre dimensioni dello score

40%

Conversion score

Spinge verso l’azione? Ha un CTA concreto? La FOMO è calibrata — presente ma non aggressiva?

30%

Clarity score

Linguaggio adatto a WhatsApp? Breve, naturale, zero corporate? Nessun elenco puntato in chat?

30%

Empathy score

Suona umano? Caldo? Usa intercalari italiani naturali senza diventare artificiale?

Score complessivo = conversion × 0.4 + clarity × 0.3 + empathy × 0.3

Il peso maggiore sulla conversione non è casuale. Ambra ha un obiettivo primario: portare il lead a prenotare. Ma conversione senza chiarezza produce messaggi aggressivi che respingono. Conversione senza empatia produce messaggi robotici che non convertono. Le tre dimensioni si bilanciano a vicenda.

L’architettura del sistema

Il sistema è composto da tre pezzi fissi che non cambiano mai tra un esperimento e l’altro, più un elemento variabile che è esattamente quello che stiamo ottimizzando.

Fissi:

  • 10 test case realistici — scenari rappresentativi delle conversazioni reali di Ambra: il lead entusiasta che poi scompare, il lead freddo e monosillabico, quello che ha già un fornitore, quello che chiede tempo, quello che risponde “non mi interessa” dopo due messaggi positivi. Costruiti sulla base di conversazioni reali, anonimizzate.
  • Un LLM judge — Claude Sonnet con una rubrica dettagliata per ogni dimensione. La rubrica descrive cosa significa un 4, un 7, un 9 per conversion/clarity/empathy, così le valutazioni sono confrontabili tra esperimenti.
  • La metrica aggregata — la formula pesata di cui sopra. È lo stesso numero che usiamo per confrontare baseline e challenger, decidere keep/discard, e costruire il log storico degli esperimenti.

Variabile:

  • Il system prompt di Ambra — il file che l’agente legge per capire come comportarsi. È il “codice sorgente” della personalità e della strategia conversazionale. È l’unica cosa che cambia tra un esperimento e l’altro.

Per la simulazione delle risposte di Ambra usiamo Claude Haiku — economico, veloce, sufficiente per produrre variazioni realistiche nelle risposte. Sonnet è riservato al giudice, dove la qualità di valutazione ha impatto diretto sull’affidabilità degli esperimenti.

Il loop: come funziona in pratica

Il ciclo è quello del metodo scientifico, compresso in 5 passi che si ripetono in autonomia:

  1. Ipotesi — l’agente sceglie una modifica da testare, selezionandola da un catalogo di idee prioritizzate: tono, strategia di conversione, gestione obiezioni, brevità, personalizzazione.
  2. Modifica — edita il system prompt nel file ambra_system.md con la modifica scelta. Solo sezioni specifiche — la struttura generale rimane intatta.
  3. Commit git — ogni esperimento ha il suo commit. Git funziona come memoria di stato: se il challener non batte il baseline, si fa git reset —hard HEAD~1 e si riparte dal migliore.
  4. Valutazione — lo script genera le risposte di Ambra su tutti i 10 test case con Haiku, poi Sonnet giudica ognuna. Score aggregato in output.
  5. Keep o discard — se il nuovo score supera il best_score corrente, si tiene il commit e si aggiorna il baseline. Altrimenti si scarta e si prova un’altra direzione.

L’analogia con l’ottimizzazione ML è precisa: il system prompt è il train.py, lo score complessivo è la validation loss, il loop è l’addestramento. La differenza è che invece di modificare pesi numerici, si modificano istruzioni in linguaggio naturale.

I risultati: cosa ha funzionato davvero

Il baseline di questo cliente era 6.42 (conversion 5.40 / clarity 8.00 / empathy 6.20). Un prompt già funzionante, scritto e raffinato a mano, con margini evidenti sulla conversione e sull’empatia — la situazione tipica con cui arriviamo al ciclo di ottimizzazione.

Baseline → Best

Overall

6.42

→ 8.00

+24.6%

Conversion

5.40

→ 8.00

+48%

Clarity

8.00

→ 8.00

stabile

Empathy

6.20

→ 8.00

+29%

Caso rappresentativo. Media su tutti i clienti: +20-25% sullo score complessivo.

Tre modifiche hanno prodotto i salti più significativi:

Modifica 1

Stile minuscolo WhatsApp

empathy↑ +0.20
clarity↑ stabile+

Delta più alto

Scava il freno reale

overall↑ +0.33
conversion↑ singolo run

Modifica 3

Slot concreti nella CTA

conversion6.40 → 8.00
scenario↑ +25%

1. Stile minuscolo esplicito per WhatsApp

Una riga aggiunta al prompt: le maiuscole all’inizio di ogni frase su WhatsApp suonano formali e corporate. L’agente scriveva “Certo, capisco la tua situazione.” Un lead reale avrebbe scritto “certo, capisco”. La modifica ha impattato sia clarity che empathy: il messaggio era lo stesso, ma suonava diverso. È il tipo di insight che non emerge mai leggendo il prompt — emerge solo misurandolo.

2. Scava il freno reale prima di proporre soluzioni

Per i lead indecisi, il prompt originale istruiva Ambra a proporre un teaser del prodotto per stimolare l’interesse. Il challenger ha invertito l’ordine: prima capire il motivo vero dell’indecisione, poi — solo se necessario — il teaser. Il risultato: +0.33 sullo score complessivo in un singolo esperimento. L’agente smetteva di vendere prima di capire cosa stava davvero frenando il lead.

3. Slot concreti nella FOMO

”Ci sono ancora pochi posti disponibili questa settimana” è FOMO generica. “Hai ancora martedì o giovedì pomeriggio libero?” è FOMO con slot concreti che richiedono una risposta specifica. La conversione su questi scenari è salita da 6.40 a 8.00 con questa singola modifica. La differenza non era nel contenuto, era nella struttura della CTA.

Due esperimenti invece sono stati scartati perché, controintuitivamente, peggioravano i risultati:

Tono più formale: un test per vedere se aumentare il registro linguistico migliorava la percezione di professionalità. Risultato: clarity e empathy sono scesi entrambi. Su WhatsApp, il formale suona distante. Il registro informale è un requisito del canale, non una scelta stilistica.

Risposta compatta ai competitor: un tentativo di rendere le risposte alle obiezioni competitive più brevi e dirette. Ha recuperato clarity ma ha abbassato conversion: messaggi troppo corti su un’obiezione delicata sembrano evasivi, non sicuri.

Cosa impara il sistema che tu non vedresti mai

Il log degli esperimenti è, alla fine, più prezioso del prompt stesso. È una serie di ipotesi testate con esito documentato: cosa ha spostato l’ago, cosa non ha funzionato, perché. Questo log diventa un asset che accompagna il cliente: quando il business cambia e il prompt va riadattato, si riparte da un punto molto più avanzato.

Senza il loop automatico, queste modifiche si testano manualmente — una alla volta, con settimane di gap tra una versione e l’altra, senza una metrica che dica se è migliorato davvero o se si è solo confermato ciò che ci si aspettava. Fare questo su decine di clienti in parallelo sarebbe semplicemente impossibile. Il volume è il vantaggio: molti cicli autonomi per cliente, con un log strutturato, producono più conoscenza di mesi di ottimizzazione manuale episodica.

C’è però un limite che vale la pena nominare esplicitamente: le eval misurano quello che sai definire. Uno score 8.00 su conversion, clarity ed empathy non garantisce che Ambra stia costruendo relazioni autentiche o che stia operando in modo eticamente impeccabile in ogni scenario. Questi aspetti richiedono ancora supervisione umana — e probabilmente la richiederanno ancora a lungo.

L’optimizer sposta la media dei risultati misurabili. La responsabilità di definire cosa vale la pena misurare rimane umana.

Quando ha senso costruire un sistema del genere

Non ogni agente AI giustifica questo livello di infrastruttura. Il pattern ha senso quando:

  • L’agente è in produzione su scala: se Ambra gestisce centinaia di conversazioni al giorno per un cliente, ogni punto di score complessivo si traduce in conversioni aggiuntive concrete. Il sistema si ripaga rapidamente, spesso con il primo cliente ottimizzato.
  • Hai test case realistici e una rubrica solida: spazzatura entra, spazzatura esce. La qualità degli esperimenti dipende dalla qualità della metrica. Prima di costruire il loop, vale la pena passare del tempo a costruire test case rappresentativi e criteri di valutazione precisi.
  • Il prompt è già funzionante ma vuoi il margine extra: questo non è uno strumento per trovare un prompt da zero. È uno strumento per ottimizzare un prompt che già funziona, estraendo il miglioramento che la scrittura manuale non riesce a raggiungere per mancanza di volume sperimentale.

Per chi lavora con agenti AI su processi aziendali critici, questo approccio — misurare prima di ottimizzare, testare prima di decidere — è la differenza tra credere che il proprio agente funzioni bene e saperlo.

Il pattern eval + loop automatico non è riservato ai grandi laboratori AI. Con strumenti accessibili e una metrica ben costruita, è applicabile a qualsiasi agente con un obiettivo misurabile. Ambra ne è la prova.

Vuoi un agente AI che migliora nel tempo?

Ambra riattiva i lead su WhatsApp in autonomia — e il suo prompt si affina ciclo dopo ciclo, su ogni cliente che lo usa.

Scopri Ambra →

Cos'è un prompt AI auto-migliorante?

Un prompt AI auto-migliorante è un system prompt gestito da un loop autonomo che propone modifiche, le testa su casi standardizzati, misura il delta su una metrica oggettiva e tiene solo i cambiamenti che migliorano il punteggio. Il ciclo si ripete senza intervento umano, accumulando conoscenza a ogni iterazione. È l'applicazione del pattern Auto Research di Karpathy all'ottimizzazione delle istruzioni conversazionali di un agente AI.

Quanto può migliorare un prompt AI con un loop di ottimizzazione autonoma?

Sui clienti che usano Ambra, il nostro agente WhatsApp per la riattivazione lead, registriamo mediamente un miglioramento del 20-25% dello score complessivo rispetto al prompt iniziale. Il caso descritto nell'articolo ha ottenuto +24.6% (da 6.42 a 8.00 su 10), con +48% in conversione e +29% in empatia. I guadagni maggiori arrivano sempre sulle dimensioni che la scrittura manuale tende a sottovalutare.

Cos'è Ambra e come funziona come agente WhatsApp?

Ambra è l'agente AI di Martes AI per la riattivazione lead su WhatsApp. Contatta autonomamente lead che hanno espresso interesse ma non hanno ancora prenotato, gestisce obiezioni, costruisce rapport e guida verso la prenotazione. Viene configurato con un system prompt specifico per ogni cliente, poi sottoposto a un loop di ottimizzazione autonoma che ne migliora progressivamente le performance.

Come si misura la qualità di un agente AI conversazionale su WhatsApp?

Il metodo più robusto è una metrica composita pesata su tre dimensioni: conversione (40% del peso — spinge verso l'azione con CTA concreti?), chiarezza (30% — linguaggio naturale, adatto a WhatsApp, zero corporate?) ed empatia (30% — suona umano, caldo, usa intercalari italiani naturali?). Per ognuna si usano test case realistici valutati da un LLM judge con rubrica strutturata. La composita pesata impedisce al loop di ottimizzare solo la dimensione più facile.

Cosa serve per costruire un loop di ottimizzazione autonoma del prompt?

Tre elementi essenziali: una metrica oggettiva e composita (non un singolo valore soggettivo), un set di test case rappresentativi costruiti su conversazioni reali, e un LLM judge con rubrica esplicita che rende i punteggi confrontabili tra esperimenti. Git gestisce la memoria di stato — ogni esperimento è un commit, ogni discard è un git reset. L'infrastruttura tecnica è semplice; la qualità dei test case è la variabile critica.