Loop agentici: cosa sono e perché cambiano il modo di lavorare con l'AI

9 giu
Tempo di lettura: 8 min

La prima versione (poi scartata) di questo articolo l'ha preparata una squadra all'interno di un sistema agentico. Io ho solo chiesto ad uno di questi Loop:

/deep-research "cerca informazioni sui loop agentici di Claude, di cui questa skill deep-research è un esempio e spiegali ad un pubblico non tecnico in un blog post che scriverain in projects/blog". Usa Sonnet per i subagenti e haiku per il fetching"

Una normale skill dirà qualcuno. Invece no, un loop non è solo un prompt più lungo, ma un piccolo sistema che scopre il lavoro, lo assegna agli agenti, verifica i risultati, salva lo stato e decide la mossa successiva. E continua a farlo finché non raggiunge un obiettivo.

Boris Cherny, in Anthropic, dice in sostanza che il suo lavoro ormai è progettare i loop, non scrivere i singoli prompt. E questa frase ormai si legge ovunque... Vediamo quindi, a grande richiesta, cosa significa.

I Loop agentici

Sei sono le componenti importanti di questi loop.

Il battito. Qualcosa che lo sveglia a intervalli. Senza, è una sessione una-tantum; con, è un sistema che controlla e smista da solo, anche se non aprite il computer. È la differenza tra "dovrei guardare quella cosa ogni mattina" e qualcosa che la guarda al posto vostro. E va avanti finché non raggiunge una condizione verificabile, con un secondo modello che decide se è davvero "fatto", così chi lavora non si dà i voti da solo.
Le scrivanie separate. Ogni agente la sua copia dei file. Così lavorano in parallelo senza pestarsi i piedi e senza rovinarsi il lavoro a vicenda.
Le regole di casa. Le convenzioni, il "come si fanno le cose qui": scritte una volta, restano da un giro all'altro. Senza, ogni volta l'AI riparte come fosse il primo giorno.
Gli attrezzi veri. Un loop che sa solo leggere può solo darvi consigli. Collegatelo agli strumenti veri (aprire una richiesta, aggiornare una scheda, scrivere un messaggio, interrogare un archivio) e smette di commentare: comincia a fare.
Chi fa e chi controlla. Chi scrive è un pessimo giudice di sé. Non è un difetto del modello, è strutturale, vale anche per noi (Se avete la pazienza di leggere i miei articoli capite di cosa parlo). Quindi uno fa, e un altro (istruzioni diverse, a volte un modello più bravo) verifica. È quel secondo agente che vi lascia andare via tranquilli.
Il quaderno di bordo. Niente di tutto questo sopravvive da solo alla fine di una sessione. Il loop deve appoggiarsi a un foglio esterno che risponde a tre domande:
1. a cosa stiamo lavorando adesso,
2. cosa abbiamo provato l'ultima volta e com'è andata,
3. cosa aspetta una decisione umana.

Per i loop che vanno avanti giorni, quel foglio è spesso la cosa più importante che producono. Perché è l'unica che permette di arrivare ad una definizione di 'fatto' (inteso come "Compito completato e corretto!") che piaccia anche a noi, che dobbiamo mettere gusto e giudizio nella nostra preziosissima fase di controllo dell'output di ogni AI. (VERO?!)

Serve una squadra

In Claude è presente un loop di esempio, a simulare la Deep Research appunto, con una squadra composta, alla fine da un centinaio (centouno) sessioni di diversi agenti che hanno lavorato insieme per una quarantina di minuti. In Loop appunto. Centouno sessioni, per capirci, sono centouno thread di lavoro separati, di quelli che vedete alla sinistra del vostro agente AI come ChatGPT o Claude.

In un ambiente come Claude Code sono esteticamente più brutte ma più chiare.

Il primo ha spezzato la domanda in cinque direzioni. E Cinque agenti hanno cercato sul web in parallelo.

Altri diciannove hanno aperto le fonti e ne hanno tirato fuori le affermazioni importanti. Poi è arrivata la parte che preferisco: un gruppo di "scettici" ha provato a smontare ogni affermazione, una per una. Su venticinque, ne hanno bocciate tredici. Alla fine una sola AI ha rimesso insieme i pezzi sopravvissuti ed il sottoscritto, come da prassi, ha praticamente riscritto tutto perchè non gli piaceva come scrive il suo agente AI (Ogni tanto ci riprovo).

Totale circa 1.777 messaggi e 19,4 Milioni di Token.

Ve lo dico in dollari: VENTISETTE!

Per una ricerca!

Capite che su alcune attività i costi si stanno allineando, e a volte superano, quelli umani?

il breakdown dei costi di cui vi sto parlando, visto sull'app Local Agent Viewer https://github.com/maxturazzini/local-agent-viewer

Ora, vi siete fatti un'idea più chiara di cosa significhi "loop agentico"? No? Prossimo paragrafo allora!

Da rispondere a fare

In passato un chatbot rispondeva ad una domanda. Se la risposta non vi piaceva, riformulavate e riprovavate. Era utile. Ma pieno di problemi, non ultimo le allucinazioni.

Un sistema agentico fa qualcosa di diverso: agisce in un ciclo, in loop. Prova una mossa, guarda cosa è successo, aggiusta, riprova. Cerca, legge, controlla, corregge. Non si ferma alla prima risposta: lavora verso un obiettivo finché non lo raggiunge. La differenza tra le due cose è la stessa che passa tra chiedere a un collega "secondo te come si fa?" e dirgli "fammelo, e fammi sapere quando è pronto".

Il pezzo tecnico che rende possibile tutto riguarda in gran parte l'uso degli strumenti. Vuol dire che Claude, o il modello che state usando, da solo, decide quando gli serve un attrezzo (una ricerca sul web, l'apertura di un file, un calcolo) e quando invece può rispondere a memoria. Nessuno glielo dice passo per passo: è lui che, davanti a qualcosa che non sa, sceglie di andarselo a procurare. Quel piccolo gesto è il motore di tutto il resto.

Ma un motore, da solo, non muove niente, nemmeno se è Claude Mythos o Fable 5. Chiunque abbia a che fare con una macchina lo sa: la potenza non conta finché non c'è la trasmissione che la collega al lavoro. Il modello è il motore. Tutto quello che gli sta intorno (gli strumenti che può usare, le istruzioni che riceve, il ciclo che lo fa riprovare quando sbaglia, i paletti che gli impediscono di fare danni) è la trasmissione. In inglese si può definire "harness", l'imbragatura. È la parte che non si vede, di cui nessuno parla, e dove sta larga parte del lavoro di ingegneria. È anche dove sta la fiducia: un motore potentissimo senza imbragatura gira a vuoto.

E qui c'è la cosa che sorprende di più: il modello, per noi utenti, è la parte facile. Basta pagare ed è già bravissimo così com'è. Il difficile, e l'interessante, è l'imbragatura, cioè come lo colleghiamo al lavoro vero. Quando questa ricerca si è scatenata, l'intelligenza dei singoli agenti contava meno di come erano imbragati insieme. Tanto che ho utilizzato volutamente di motori secondari come Haiku che sono modelli più leggeri.

Workflow o agente: chi tiene il volante

Qui Anthropic, fa una distinzione che vale la pena rubare.

Un workflow è una ricetta. I passi sono scritti prima, da una persona: prima questo, poi quello, poi quest'altro. L'AI esegue ogni passaggio, ma il percorso lo ha deciso in larga parte un umano in anticipo. Sapete sempre quali passi verranno fatti e come.

Un agente è uno chef. Gli date l'obiettivo e gli ingredienti, e improvvisa: valuta la situazione, sceglie cosa fare, prova una strada, assaggia, cambia se non funziona. Il percorso lo decide lui, mentre lavora.

Non è bianco o nero. Tra la ricetta rigida e lo chef che improvvisa c'è tutta una scala di sfumature. La domanda giusta non è "agente o no?", ma "quanta libertà (Agency) di decidere conviene lasciare alla macchina per questo compito?".

Perché fidarsi di più, non di meno

Verrebbe da pensare che cento AI insieme facciano più confusione di una sola che segue le cose dall'inizio alla fine. Ma succede il contrario, per tre motivi semplici:

La divisione dei compiti. Chi cerca cerca, chi controlla controlla. Nessuno fa tutto, quindi è difficile che escano cose fatte troppo male.
Lo scetticismo organizzato. Ogni affermazione, almeno in questo loop, passa davanti a tre verificatori indipendenti, e ne bastano due contrari per buttarla via. È avere qualcuno che ricontrolla i conti prima di consegnarli.
Le fonti alla mano. Quello che sopravvive arriva con il link da cui viene. Potete andare a controllare. Niente affermazioni campate in aria.

C'è anche un quarto motivo, che dico a voce bassa: un sistema così vi dice anche cosa non è riuscito a confermare, finalmente. I 'soliti modelli' che parlano o pensano da soli non vi avvisano mai dei propri dubbi. Una squadra che si controlla a vicenda sì.

Prompt, context, harness... e ora loop

Faccio un passo indietro e vi mostro la scala intera, perché c'è una parola che in queste settimane gira in ogni discorso tra chi costruisce questi sistemi: loop engineering, la parola del mese.

Lavorare con l'AI è stato salire dei gradini, uno per volta.

Prompt Engineering. All'inizio si imparava a scrivere bene la singola richiesta: obiettivo, vincoli, tono. Un comando, e l'AI esegue.
Context Engineering. Poi si è capito che conta di più l'ambiente intorno: le istruzioni stabili, la memoria, il vostro modo di scrivere. Lo preparate una volta e l'AI ci lavora dentro ogni volta.
Harness Engineering. Il gradino dell'imbragatura di cui parlavamo: gli strumenti per agire (cercare, leggere i vostri file, scrivere una mail) più un secondo agente che controlla il primo.
Loop Engineering. L'ultimo gradino, quello nuovo: smettete di scrivere i prompt. Progettate il sistema, il loop, che scopre da solo cosa c'è da fare, lo assegna, verifica i risultati e vi chiama solo quando serve una decisione vostra.

Torniamo a Boris Cherny e a quello che dice senza giri di parole: «Non scrivo più prompt a Claude. Ho dei loop che lo fanno per me. Il mio lavoro è progettare i loop». E non è il solo: Peter Steinberger, creatore di OpenClaw, che di mestiere costruisce strumenti per far lavorare gli agenti, ripete la stessa cosa: il vostro compito è progettare i loop che danno gli ordini agli agenti, non darli a mano uno per uno.

Detta così sembra che a ogni gradino l'AI vi tolga un pezzo di lavoro. È il contrario: non delegate il pensiero, lo spostate più in alto. Prima pensavate alla frase, poi al contesto, poi agli strumenti, ora al sistema intero.

L'AI esegue, sempre. A progettare (e contenere) siete sempre voi.

Quindi... cosa ci resta da fare?

Un dato, prima di chiudere. Anthropic ha misurato, sui propri strumenti, che le persone lasciano alle AI meno autonomia di quanta queste ne saprebbero già gestire. L'hanno chiamato "deployment overhang": un margine di capacità che resta inutilizzato non perché la macchina non sia pronta, ma perché noi non ci fidiamo ancora. Tradotto: il freno, ormai, siamo noi.

E allora la domanda giusta diventa un'altra: se il freno siamo noi, cosa ci resta da fare? Avete visto come è fatto un loop: scopre, assegna, verifica, ricorda. Quasi tutto quello che facevate a mano adesso può girare da solo. Quasi. Perché una cosa il loop non se la prende, ed è la più importante: il giudizio su cosa sia davvero "fatto". La macchina vi dice che ha finito. Decidere se è vero, se quel risultato regge, se ci mettereste la faccia, resta vostro. Anzi, diventa l'unico lavoro che conta.

C'è anche un prezzo nascosto: più il loop è bravo, più in fretta cresce il vostro debito di comprensione, la distanza tra quello che è uscito e quello che avete davvero capito. Un sistema può consegnarvi in quaranta minuti un lavoro da venti ore. Ma se firmate senza leggere, avete solo automatizzato la prossima figuraccia.

Ecco perché essere il freno non è un difetto da correggere: è il mestiere. La regola che dò ai team con cui lavoro non cambia gradino dopo gradino: firmate solo quello che avete capito. La macchina fa il giro, il giudizio lo mettete voi. Questo articolo, che ho riscritto da zero perché il suo loop non scriveva come dico io, è lì a dimostrarlo.

Massimiliano