Agenti AI: un framework in 5 regole e cosa comportano davvero

12 ago 2025
Tempo di lettura: 8 min

Aggiornamento: 13 ago 2025

Il 4 agosto 2025, Anthropic ha pubblicato il suo "Framework for Developing Safe and Trustworthy Agents".

Un documento elegante, pieno di belle intenzioni e soprattutto di una parola magica che, in varie forme, ricorre in continuazione: "dovreste". Dovreste sviluppare gli agenti con trasparenza. Dovreste mantenerli allineati ai valori umani. Dovreste proteggere la privacy. Dovreste renderli sicuri. Ne ho contate una quindicina.

Leggendo, ho avuto la stessa sensazione di quando ascolti un politico che parla di "collaborazione" dopo aver combinato qualcosa di grosso: una bella patina da "lavoriamo insieme" che puzza di disclaimer legalese da chilometri di distanza.

E tutto ciò è diventato la mia personale goccia di traboccamento del vaso, ciò che mi ha naturalmente imposto di mettere un po' di puntini, anche se è agosto e dovremmo essere tutti più calmi (più buoni invece a Natale).

Non ce l'ho solo con Anthropic, sia chiaro. Vale per tutti: Google, OpenAI, Amazon, ciascuno sta aumentando i toni e l'importanza dell'etica e della responsabilità che dobbiamo avere NOI quando utilizziamo le LORO soluzioni.

Un passo indietro

Gli agenti sono esplosi quest'anno, probabilmente nel 2026 parleremo solo di questo, e nel 2027 saranno la norma.

Cosa sono? Secondo Anthropic:

Pensa a un agente come a un collaboratore virtuale in grado di gestire in modo indipendente progetti complessi dall'inizio alla fine, mentre tu ti concentri su altre priorità.

(Ovviamente potenziato dall'AI)

Ricordo la prima volta che ne ho visto uno in azione, era l'estate del 2023 e tutto era 'più semplice'. Nonostante ciò, mi ha impressionato l'indomabilità di questi strumenti che all'epoca rischiavano solo di andare a sbattere addosso a qualche muro senza combinare nulla. Ma quest'anno... li stiamo vedendo alla prova e combinando guai veri, con l'effetto di preoccupare i produttori di modelli e piattaforme e moltiplicare le dichiarazioni come quelle di Anthropic, giorno dopo giorno.

Un po' di esempi di figuracce (cito solo tre casi):

Cancellazioni di file reali da parte di Google Gemini CLI (WinBuzzer)
Cancellazione completa di database di produzione su Replit (The Register)
Distribuzione accidentale di exploit distruttivi da parte di agenti AI di Amazon (404 Media).

L'approccio dei produttori

Sam Altman, Dario Amodei e i vari CEO e CTO stanno ripetendo concetti che riassunti suonano un po' così: "Stiamo creando armi atomiche, ma dobbiamo lavorare insieme per contenerne l'impatto. Nel frattempo andiamo avanti perché, sapete, non possiamo farci nulla né tantomeno fermarci".

Chi mi conosce sa quanto tengo all’AI Fluency — la capacità di usare questi strumenti con consapevolezza e intelligenza. È ciò che ci aiuta a muoverci anche in acque un po’ agitate.

Ma la verità è che noi utenti, anche i più preparati, ci muoviamo spesso nella stiva della nave, tra vasi di ferro. E i vasi di coccio, in mezzo a tutto quel metallo che non sente nemmeno di aver urtato qualcosa, siamo noi. Basta poco per finire in frantumi, e nessuno si volta a chiedersi cosa sia successo.

La corresponsabilità è importante, certo, ma il produttore non può scaricare completamente su utenti così fragili la responsabilità dei disastri dei propri sistemi. Ci sono dei limiti a tutto.

Quindi beccatevi il manifesto riscritto con chiave un po' polemica fermo restando che ciascuno dei principi sotto è sacrosanto. Semplicemente dovrebbe essere bilaterale.

1. Human in the Loop

Loro dicono: "Mettiamo l'umano al centro per garantire sicurezza e controllo."

La verità scomoda: l'umano non è al centro per filosofia etica, ma perché i modelli sono decisamente imperfetti, e non sappiamo governare la complessità di dieci cervelli sintetici che vanno in direzioni diverse.

Delegare a un agente non è come dare le chiavi di casa a un amico: è come affidare una centrale nucleare a dieci stagisti geniali ma psicopatici. Io ho messo 10 agenti su un progetto di formazione: in un'ora mi hanno prodotto l'equivalente di 600 pagine (come risultato finale, c'è anche molto semilavorato dietro le quinte). Una velocità incredibile.

Poi si sono fermati e uno di loro mi ha detto: "Abbiamo finito: ora controlla tu".

Human in the loop, perfetto.

Posso fidarmi? No.

Lo sa il produttore dei sistemi? Sì.

E quindi mi tocca passare 20-30 ore a revisionare o accettare di vivere con l'ansia di pubblicare spazzatura.

L'human-in-the-loop non è un'opzione filosofica: è l'unica ancora di salvezza che abbiamo quando i modelli fanno i capricci. E questo accadrà ancora per molti anni a venire. Ma presentarla come una scelta etica, quando è solo una necessità tecnica, è puro marketing.

L'Human in The Loop a volte mi sembra pura illusione di controllo: chi sa progettare e lavorare bene con gli agenti li lascia finire e poi controlla. Si fida perché sa lavorarci. Sa lavorarci perché ha dedicato decine o centinaia di ore con un modello e i suoi 'prompt'.

Il punto è che per governare gli agenti serve esperienza. Qui se volete approfondire

Senza filtri: Noi umani siamo qui perché gli agenti sbagliano spesso. Senza di noi, nella maggior parte dei casi, sarebbe un disastro annunciato. Soprattutto all'inizio della nostra esperienza con loro. E questo ci farebbe dire che, semplicemente, non funzionano.

2. Trasparenza

Loro dicono: "Ogni azione deve essere loggata e visibile."

La verità scomoda: i log servono, eccome. Ma la vera trasparenza sarebbe aprire la scatola nera del modello. Con un LLM, quella trasparenza non esiste. Quindi si può vedere cosa fa un agente ma non perché. Tocca accontentarci.

Anthropic vanta la sua "real-time to-do checklist" in Claude Code. Bello, vedo cosa sta facendo. Ma quando decide di cancellare una cartella invece di archiviarla, il log mi dirà "Azione: cancella cartella". Non mi dirà perché ha interpretato "sistema" come "elimina" invece che come "organizza".

La trasparenza vera sarebbe spiegare il ragionamento interno, non solo l'output finale. Ma questo richiederebbe di ammettere che spesso nemmeno loro sanno perché i loro modelli fanno quello che fanno. Anche se Anthropic ci sta onestamente provando.

Senza filtri: Funzionare... funziona, il perché... lo scopriremo.

3. Allineamento ai valori umani

Loro dicono: "Gli agenti devono riflettere valori ed etica umana."

La verità scomoda: Forse, se siamo bravi, noi utilizzatori riusciamo a trasmettere il 10% dei nostri valori a un agente.

Il problema non è che noi scriviamo cattive istruzioni: è che i produttori non riescono o non vogliono contenere al 100% i modelli.

E allora il compito di "civilizzare" la creatura ricade su di noi, ogni volta. Se devo riassumere una notizia o analizzare una foto, non voglio dover ripassare Aristotele e la Dichiarazione Universale dei Diritti Umani per assicurarmi che il bot non faccia cavolate.

I valori umani sono complessi, contestuali, culturalmente situati, spesso impliciti. Pensare di comprimerli in un prompt o in un fine-tuning è come credere di insegnare l'empatia con un manuale di istruzioni.

Il risultato? Agenti che sanno dire "sono un'AI responsabile" ma che poi suggeriscono ricette per bombe quando lusinghi un po' il modello.

Senza Filtri: Noi cerchiamo di non fare danni, voi cercate di impegnarvi e fare solo cose buone.

4. Protecting Privacy

Loro dicono: "Proteggere la privacy degli utenti è fondamentale."

La verità scomoda: Tutto giusto sulla carta. Ma senza un'analisi tecnica seria di come vengono gestiti i datin (da parte dei fornitori), queste sono solo frasi di circostanza.

E torniamo al punto 2: la trasparenza vera (quella che conta) non è mai sul tavolo. Come fanno i miei dati di training? Dove finiscono i miei prompt? Davvero? Come vengono utilizzati per migliorare i modelli? Davvero?

E le più interessanti: Cosa viene utilizzato dei miei dati di cui io non mi rendo conto? Cosa di questo non è ancora normato?

"Trust me, bro" non è una policy sulla privacy. È un atto di fede.

E quando hai visto aziende tech che per anni hanno detto "i dati sono sicuri" per poi scoprire breach, vendite sottobanco e usi impropri, la fede scarseggia.

Il problema è che la privacy vera richiederebbe modelli completamente locali o architetture federalmente distribuite (scusate se vado sul tecnico). Ma questo cozza con il business model del "tutto nel cloud, tutto sotto controllo nostro". Argomento monster. Ma da non dimenticare, soprattutto quando lavorate con dati di altri.

Senza Filtri: Ok, non usiamo i vostri dati per nuovi modelli (non ci servono tanto, oggi abbiamo di meglio). Però intanto lì teniamo e poi capiamo cosa farcene ok?

5. Rendere sicure le interazioni

Loro dicono: "Gli agenti devono difendersi da prompt injection e attacchi esterni." La prompt injection è una tecnica che prevede di inserire nel testo comandi nascosti o istruzioni ingannevoli per far sì che l'AI esegua azioni non previste.

La verità scomoda: Vero, ma non dovrebbe essere compito mio insegnare come fare e scrivere l'80% del prompt per proteggere l'agente da attacchi. Ogni volta che faccio così sto pagando token per coprire le falle lasciate da chi il modello lo vende.

E no, non sono un ingegnere di sicurezza a tempo pieno: voglio fare il mio lavoro con un minimo di serenità.

Anthropic, Google e OpenAI ammettono che la "prompt injection è una delle preoccupazioni principali per l'uso più ampio degli agenti".

Bene, e allora perché devo costruire prompt-fortezze ogni volta che voglio chiedere a Claude di fare qualcosa di più complesso di "scrivi ciao"? La sicurezza dovrebbe essere built-in, non un optional che devo assemblare io con scotch e preghiere.

Senza Filtri: Ecco le chiavi dell'auto, anzi no, l'auto non ha le chiavi, occhio a non farvela rubare eh, perché corre veloce e può fare disastri. Ah, e attenzione ai freni che non funzionano benissimo.

Quindi...

Eccoci qui, a ragionare su come lavorare con strumenti che sono potentissimi e fragilissimi allo stesso tempo.

I framework etici dei produttori sono necessari? Sì. Ed è molto importante che continuino a parlarne

Sono sufficienti? Assolutamente no.

Il punto non è che questi principi siano sbagliati. Human-in-the-loop, trasparenza, allineamento, privacy e sicurezza sono tutti concetti validissimi.

Il problema è l'approccio: trasformare problemi tecnici in necessità di virtù etiche per scaricare la responsabilità sugli utenti è troppo facile.

Quando il CEO di qualche produttore parla di armi atomiche, non sta lanciando un allarme ma scrivendo una liberatoria; sta preparando il terreno legale per quando qualcosa andrà storto. "Ehi, ve l'avevamo detto che erano pericolose. Avreste dovuto seguire le linee guida."

La corresponsabilità è sacrosanta. Ma deve essere onesta. Se il tuo agente cancella il database di produzione perché ha frainteso "sistema il backup", la colpa non è del prompt injection o della scarsa human supervision. È del fatto che tu hai messo in produzione qualcosa che il produttore non sa controllare.

Ed è forse questo il punto più importante quando parlo di consapevolezza: dobbiamo renderci conto che stiamo maneggiando materiale instabile. Ed è anche per questo che molte aziende fanno fatica a portarlo davvero dentro; non perché non funzioni, ma perché non si fidano a toccarlo senza guanti e senza adeguate garanzie del produttore.

Il mio augurio?

Che tutti — produttori di modelli e servizi AI compresi — inizino davvero a praticare responsabilità e trasparenza, anche quando si tratta di ammettere i propri limiti su come progettare con i loro strumenti.

Lo so, il marketing lo rende quasi impossibile.

Ma serve un impegno concreto a costruire strumenti che possano essere usati in sicurezza senza bisogno di un master in psicologia comportamentale o cybersecurity.

Perché oggi, troppo spesso, sembra che ci venga chiesto proprio quello.

Perché, alla fine, non è questione di saper scrivere prompt a prova di bomba. È avere strumenti abbastanza intelligenti con cui collaborare che non esplodano al primo nostro errore.

E questo, cari produttori, è compito vostro. Non nostro.

Oppure fatemi uno sconto del 90% e ditemi che sto facendo il beta tester.

Massimiliano