AGENTI AI 7 min

Agente AI analizza studi PubMed: 10.000/giorno, €300k l'anno

Come un agente AI analizza 10.000 studi scientifici al giorno su PubMed e risparmia €300.000 l'anno: il caso Swiss Natural Med con multi-RAG e self-learning.

Lo 0,001% degli studi scientifici pubblicati ogni anno. Questo era il tetto che un ricercatore di Swiss Natural Med riusciva fisicamente ad analizzare - non per mancanza di competenza, ma per i limiti biologici dell’attenzione umana. Milioni di paper su PubMed ogni anno, e tu ne leggi qualche decina. Per questo abbiamo costruito il dottor Derry: un agente AI per l’analisi di studi scientifici che arriva a 10.000 paper al giorno, risparmia €300.000 l’anno e non sostituisce il medico - gli restituisce il tempo per fare il medico.

Swiss Natural Med produce integratori alimentari di nuova generazione dalla Svizzera. Il loro problema non era tecnico: era di scala. I pazienti facevano domande cliniche ad alta responsabilità - dosaggi, interazioni farmacologiche, compatibilità con patologie specifiche. Ogni risposta veniva scritta da zero dal medico, il sapere clinico precedente non veniva capitalizzato, e i tempi di attesa si misuravano in ore, a volte giorni.

Dal 2018 avevano già collaborato con SUPSI, USI e l’Istituto Dalle Molle - tre eccellenze per l’AI in Svizzera italiana. Competenze indiscusse. Ma i cicli di sviluppo accademici si misurano in semestri, quelli di un’azienda in settimane. Due anni di lavoro, nessun risultato concreto.

Il motore multi-RAG a tre livelli: come funziona davvero

Il cuore del sistema - che abbiamo chiamato dottor Derry, dal nome dell’amministratore dell’azienda - è un motore multi-RAG (Retrieval-Augmented Generation) a tre livelli. Ogni domanda di un paziente percorre questa sequenza:

  • Livello 1 - Storico validato: l’agente verifica se una domanda simile è già stata risposta in passato e approvata dal medico. Nessun lavoro ridondante, nessuna risposta scritta due volte.
  • Livello 2 - Libreria interna di paper qualificati: ogni giorno vengono processati nuovi paper scientifici. Se il medico li approva, entrano nella knowledge base con un punteggio di qualità. Questo parsing è tutt’altro che banale - ci arriviamo dopo.
  • Livello 3 - PubMed API in tempo reale: se i primi due livelli non bastano, il sistema interroga direttamente PubMed, accedendo alla letteratura scientifica mondiale più recente nel momento stesso in cui serve.

Ogni fonte viene valutata da un algoritmo di quality scoring sviluppato insieme al cliente - considera chi finanzia lo studio, la metodologia, i bias dichiarati. Il punteggio si aggiorna ogni volta che il medico approva o rifiuta un documento. Un meccanismo di anti-obsolescenza esclude automaticamente le informazioni datate. Il reranking affina la precisione del retrieval. Qualsiasi risposta con confidence score basso viene reindirizzata al medico prima dell’invio.

Flusso del motore multi-RAG: dottor Derry

1

Storico risposte validate

Risposta già approvata dal medico in passato?

2

Libreria interna di paper qualificati

Paper approvati + quality scoring aggiornato dal feedback medico

3

PubMed API in tempo reale

Accesso diretto alla letteratura biomedica mondiale aggiornata

Bozza + revisione medico (human-in-the-loop)

Solo dopo l’approvazione umana la risposta raggiunge il paziente

Il sistema interroga i livelli in ordine - solo se il precedente non basta, passa al successivo.

Self-learning: perché ogni correzione del medico vale oro

Il meccanismo più interessante non è il RAG in sé, ma quello che succede dopo ogni risposta. Quando il medico modifica la bozza prima di inviarla al paziente, il sistema non registra solo la risposta corretta. Analizza dove ha sbagliato, ricalibra i pesi delle fonti e aggiorna il proprio meccanismo di ragionamento.

È un training continuo basato su dati reali del dominio specifico - non su dati generici di internet, ma su correzioni di un medico esperto in nutrizione e integratori. Con ogni interazione il sistema diventa più preciso per quel contesto. Questo è esattamente il tipo di vantaggio competitivo che un’app generica su PubMed non può replicare.

Il parsing dei paper scientifici: il problema che nessuno menziona

C’è una parte di questo lavoro che sembra banale ma non lo è: il parsing dei documenti scientifici. Un paper biomedico non è un documento di testo lineare. Ha grafici, tabelle, immagini, formule, spesso scansionate in bassa qualità. I dati più rilevanti - quelli che cambiano una formulazione - sono spesso in un grafico, non nel testo.

Preparare questi documenti per un RAG richiede analisi multimodale, riconoscimento di strutture tabellari, gestione di scansioni imperfette. È uno dei motivi principali per cui le app esistenti su PubMed, come ci ha confermato il fondatore di Swiss Natural Med, “lo fanno male obiettivamente”. Il modello AI può essere ottimo: se il dato in ingresso è spazzatura, la risposta lo sarà comunque.

App generiche su PubMed vs sistema custom: il confronto

CaratteristicaApp generiche PubMedDottor Derry (custom)
Parsing documentiSolo testo, no graficiMultimodale (testo + grafici + tabelle)
Quality scoringAssente o genericoAlgoritmo custom con fattori ponderali
Dati aziendali interniNon integratiCatalogo prodotti + storico risposte
Self-learningAssenteContinuo da feedback medico reale
Human-in-the-loopAssenteObbligatorio prima di ogni risposta

I numeri e cosa serve davvero per ottenerli

10.000 studi al giorno. €300.000 l’anno risparmiati. 24/7 operativo. I numeri reggono all’analisi: il risparmio corrisponde al costo di almeno tre ricercatori a tempo pieno che, come ha osservato il fondatore, “non basterebbero comunque” per coprire quella mole di lavoro.

Ma vale la pena essere chiari su un punto: questi risultati non sono automatici. Il quality scoring funziona perché il cliente ha investito tempo a definire criteri di valutazione solidi. Il self-learning funziona perché il medico è disciplinato nel fornire feedback reale. Il sistema è preciso perché i documenti di input sono stati processati con cura. Un’implementazione sbrigativa dello stesso sistema darebbe risultati molto peggiori.

Prima del dottor Derry

  • Accesso allo 0,001% degli studi disponibili
  • Risposte ai pazienti in ore o giorni
  • Sapere clinico non capitalizzato
  • 2 anni di sviluppo senza risultato
  • 3+ ricercatori a tempo pieno necessari

Dopo il dottor Derry

  • 10.000 studi analizzati al giorno
  • Risposte ai pazienti in pochi minuti
  • Ogni risposta alimenta la knowledge base
  • Sistema operativo in pochi mesi
  • Risparmio stimato: €300.000/anno

L’impatto operativo del dottor Derry su Swiss Natural Med prima e dopo l’implementazione.

Il principio è semplice ma spesso sottovalutato: l’AI amplifica la qualità del processo che hai. Se il processo è solido, l’amplificazione è positiva. Se il processo è approssimativo, l’AI amplifica anche quello.

Cosa può imparare qualsiasi imprenditore da questo caso

La riflessione del fondatore di Swiss Natural Med vale per qualsiasi settore: bisogna partire dai processi che non piacciono né all’azienda né alla persona che li fa - attività continue, sempre uguali, senza valore aggiunto per nessuno. Scaricare e qualificare migliaia di studi scientifici è esattamente questo. Come lo è smistare fatture, aggiornare un gestionale, rispondere a domande frequenti su un catalogo prodotti.

Sono queste le attività dove un agente AI genera valore reale. Non perché l’AI sia “intelligente” in senso astratto, ma perché libera tempo umano per il lavoro che conta. L’intuizione del ricercatore, la relazione con il paziente, le decisioni strategiche. Quelle che nessuna macchina può ancora fare.

Swiss Natural Med aveva risposto sì alla domanda giusta - “stiamo costruendo questo sistema in modo che amplifichi il meglio di quello che abbiamo?” - e i risultati si vedono. La domanda per qualsiasi azienda non è se l’AI può fare questo. La domanda è: il tuo processo è abbastanza solido da meritare di essere amplificato?

Quanti studi scientifici può analizzare un agente AI al giorno?

Il sistema sviluppato per Swiss Natural Med analizza fino a 10.000 studi scientifici al giorno, attingendo direttamente a PubMed in tempo reale tramite API. Un ricercatore umano, per confronto, riesce a leggere e qualificare al massimo qualche decina di paper al giorno.

Cos'è un sistema multi-RAG e come si differenzia da un semplice RAG?

Un RAG semplice interroga una sola sorgente di dati. Un multi-RAG opera su più livelli in parallelo: nel caso Swiss Natural Med, prima le risposte validate in passato, poi la libreria interna di paper approvati dal medico, infine PubMed in tempo reale. Il risultato è una risposta più precisa e sempre aggiornata rispetto a un RAG tradizionale.

Quanto risparmia un'azienda con un agente AI per la ricerca scientifica?

Swiss Natural Med stima un risparmio minimo di €300.000 l'anno, equivalente al costo di tre ricercatori a tempo pieno. Il risparmio non è solo economico: i tempi di risposta ai pazienti passano da ore o giorni a pochi minuti, con accesso a migliaia di volte più studi rispetto alla ricerca manuale.

Le app esistenti per interrogare PubMed funzionano già per questo scopo?

Esistono app che promettono di interrogare PubMed via chat, ma secondo il fondatore di Swiss Natural Med 'lo fanno male obiettivamente'. Le differenze principali stanno nella qualità del parsing multimodale dei documenti, nell'algoritmo di quality scoring personalizzato, nel self-learning e nell'integrazione con i dati interni dell'azienda.

Cosa significa human-in-the-loop in un agente AI medico?

Human-in-the-loop significa che il medico revisiona e approva ogni risposta prima che venga inviata al paziente. L'AI genera la bozza, il medico la corregge se necessario, e solo allora viene inviata. In ambito medico-clinico questa architettura è fondamentale: garantisce sicurezza, responsabilità legale e alimenta il self-learning del sistema.

Come funziona il self-learning dell'agente dottor Derry?

Ogni volta che il medico modifica una bozza generata dall'AI, il sistema analizza la correzione, ricalibra i pesi delle fonti e aggiorna il proprio meccanismo di ragionamento. Non è un training tradizionale, ma un riallineamento continuo basato su feedback reale del dominio specifico. Con ogni interazione il sistema diventa più preciso per quel contesto.

In quanto tempo è stato sviluppato rispetto ai 2 anni con le università svizzere?

Swiss Natural Med aveva collaborato per 2 anni con SUPSI, USI e l'Istituto Dalle Molle senza raggiungere il risultato. Con Martes AI il sistema è stato reso operativo in pochi mesi. Il divario principale era nei cicli di sviluppo: semestrali nell'accademia, settimanali nell'approccio aziendale.