Che cos'è ChatGPT Agent?
- Massimiliano Turazzini

- 17 lug
- Tempo di lettura: 7 min
Oggi, all'improvviso, come al solito, OpenAI se n'è uscita con l'ennesima novità che ha spiazzato un po' tutti: ChatGPT Agent. Ci stavo pensando qualche giorno fa: chissà quanto ci metterà OpenAI a dare soluzioni di agenti versatili a tutti: il mercato si sta riempiendo di soluzioni di nuove startup. E con questo rilascio immagino ne abbia uccise almeno un centinaio.

Ma che cos'è ?
ChatGPT Agent è una nuova modalità di utilizzo di ChatGPT che trasforma il modello da semplice chatbot a assistente operativo autonomo. Non si limita più a rispondere a domande, ma può eseguire compiti veri:
naviga su siti web,
compila moduli,
prenota servizi,
analizza documenti,
scrive presentazioni,
interagisce con Gmail o GitHub o con molti servizi già parte dei connector.
Riceve un obiettivo e si muove combinando strumenti come browser visuale, terminale e API (!!!) in quasi totale autonomia, come farebbe un collaboratore un po' improvvisato e spavaldo. E se qualcosa è troppo delicato o rischioso? Ti chiede conferma.
In sostanza, è un sistema agentico.
Cos'è un sistema agentico?
ChatGPT Agent è a tutti gli effetti un sistema agentico, perché riceve un obiettivo, pianifica i passi necessari per raggiungerlo, usa strumenti esterni per agire nel mondo (digitale), osserva i risultati intermedi e adatta la sua strategia se serve.
Non risponde: agisce. È in grado di operare in più fasi, di completare attività multi-step e di scegliere come procedere senza dover chiedere istruzioni ogni volta. Questo lo rende diverso dai classici tool AI “a domanda-risposta” e lo avvicina molto al concetto di agente intelligente.
Non è però ancora un sistema agentico al 100%. Innanzitutto non è dotato di una memoria persistente a lungo termine, ricorda ciò che rimane nella chat e nelle azioni fatte ma non va oltre. Come OpenAI stessa ammette, hanno preferito non dargli accesso alla Memoria di ChatGPT per non rischiare esfiltrazioni di dati da parte di siti malevoli che non vedono l'ora di farsi navigare da un agente così potente. E sono molto, molto d'accordo con OpenAI. Potremmo definirlo un Agente Episodico, che ancora non riesce a crearsi esperienza.
Sintesi tecnica
Vi lascio con una sintesi tecnica, che ho fatto fare direttamente a lui, e a una lista di tutte le caratteristiche che OpenAI ha raccontato oggi.
Componente | Dettagli |
Browser Visuale | Clic, scroll e azioni reali su siti |
Browser Testuale | Ricerche, estrazione dati, sintesi |
Terminale | Codice, automazioni, analisi file |
API/Connectors | Gmail, GitHub, Drive, SharePoint… |
Output File | PPT, Excel, report grafici |
Sicurezza | Watch mode, conferme, replay, filtri |
Limiti | 400 prompt/mese Pro, tempi variabili. 40 prompt/mese altri. |
Disponibilità | Pro/Plus/Team da oggi, Enterprise presto |
Motore | GPT‑4o + planner/controller integrati |
La sintesi continua in fondo all'articolo.
A cosa assomiglia?
Assomiglia ad un clone evoluto di manus.im, un agente che ci ha fatto sognare nei mesi scorsi, che è in grado, dato un compito, di dividerlo in step successivi, pianificare come eseguirli e poi prendersene cura uno per uno.
Assomiglia ad O3 come capacità di ragionamento e come mix di strumenti utilizzati (da immagini, a codice, a Web Search), con, in più', tutte le capacità di navigazione con Browser, Tastiera, Mouse di Operator.
Assomiglia a quel vostro collega appena assunto che si spacca in quattro per cercare di fare le cose al meglio ma poi lascia indietro proprio una delle cose più importanti come si vede in questa slide in cui ha messo un'etichetta relativa al punto focale della slide... nel posto sbagliato.

Cosa gli ho fatto fare.
Le slide!
Beh, prima di tutto, appunto, delle slide partendo da un set di dati.
Crea una presentazione che includa la visualizzazione di una clessidra proporzionale completamente in italiano sulle professioni legate al mondo dello sviluppo e sull'impatto che il Vibe Coding potrebbe avere facendo generare codice a Non programmatori. In allegato trovi un documento dettagliato. Perfezionalo e crea una presentazione bellissima, traendo ispirazione dal sito maxturazzini.com
Tempo di lavoro: 21 minuti
Voto: 8
Perché: Ha compreso bene l'argomento, l'ha strutturato bene, ha fatto grafici abbastanza efficaci. Sarebbe stato un 7 ma ho voluto dargli un incoraggiamento 😀
Un compito lungo e difficile
Come ho scritto ad un amico se ce l'avesse fatta alla prima avrei cambiato lavoro. È andata bene (a me)! Terrò questo prompt come test per i prossimi sistemi agentici.
Leggi il blog maxturazzini.com/blog e scarica tutti gli articoli in file .md separati includendo in ciascuno l'URL completa dell'articolo.Poi: 1) Crea un file zip che io possa scaricare 2) Analizza ogni articolo e crea una mappa dei concetti i cui ho discusso nello stesso creando parole chiave per ogni articolo 3) Poi analizza tutte le mappe concettuali e le parole chiave e crea una pagina web che mi permetta di avere accesso visuale interattivo, per ogni parola chiave, a tutti gli articoli collegati. Immagino che un click sulla parola chiave mostri un elenco di articoli in un pop-up, che cliccando un articolo si apra un reader .md che mi mostra l'articolo ed io possa copincollare testo.Tempo di lavoro: 44 minuti (!!!)
Voto finale: 4.
Perché? Ve lo spiego con il prompt successivo che gli ho dato.
Uhm... Non sono contento: 1) non hai scaricato tutti gli articoli ma solo gli ultimi 11. 2) perchè hai fatto il riassunto? bastava fare scraping del testo e salvarlo in un MD nel tuo computer. 3) ora che hai le keywords rileggi tutti gli articoli, valuta le keyword una per una, associale di nuovo all'articolo e aggiorna le mappe. Vedo che per ogni keyword c'è un solo articolo e non è corretto. Sei d'accordo? Riesci a fare tutto?E in seguito mi ha confermato che non sarebbe riuscito a farcela.
Perchè ChatGPT Agent è importante?
Perché è il primo passo concreto verso un’AI che non ti assiste mentre fai, ma fa al posto tuo. E no, non è il primo del mondo a fare questo e come avete visto non è nemmeno perfetto. Ma Chat GPT è il tool più diffuso sia in ambito business che consumer ed è il più conosciuto al mondo a rendere disponibile un sistema così semplice da usare e così potente.
Finora l’intelligenza artificiale generativa era come un bravo consigliere: ti suggeriva cose, ti scriveva email, ti aiutava a pensare. Ma eri sempre tu a cliccare, copiare, incollare, prenotare, inviare. (Tanto che ormai ChatGPT mi prendeva in giro).
Ora, con ChatGPT Agent, inizia l’epoca in cui l’AI prende in carico compiti reali, li esegue, li corregge, li adatta. Questo cambia completamente il gioco: non parliamo più di aumentare la produttività, ma di trasformare il modo stesso in cui lavoriamo.
Per aziende, professionisti, studenti o team, significa spostare l’attenzione dalle attività operative agli obiettivi. Non devo più sapere come si fa qualcosa, ma solo cosa voglio ottenere. E le persone che danno questi obiettivi potranno (o dovranno) occuparsi di controllare i risultati. Che è un altro mestiere.
Quindi...
È una rivoluzione con un impatto profondo, che segna il passaggio dall’uso dell’AI come strumento al suo ruolo di collaboratore autonomo.
Mancano ancora alcune cose per essere 'perfetto', scopriremo nelle prossime settimane la sua affidabilità. (OpenAI afferma che siamo al 41,6% del benchmark Humanity's Last Exam, una crescita di ben il 56,4% rispetto ad O3 con DeepSearch!)
Mancano ancora la memoria e la persistenza, ma la direzione è chiara: stiamo entrando in un mondo dove delegare all’AI sarà naturale quanto oggi lo è aprire un’app. E questo scatena ulteriori e lunghe riflessioni che siamo costretti a fare prima di quello che pensavamo.
Dimenticavo: Non è ancora attivo in Unione Europea, tanto per cambiare.
Pensieri? Massimiliano
Continua... l'elenco di funzionalità sull'Agente di ChatGPT scritto dall'agente di ChatGPT
🧠 ARCHITETTURA INTELLIGENTE
1. Motore agentico multi-step
Comprende obiettivi complessi.
Pianifica da solo la sequenza di azioni necessarie per raggiungerli.
Adatta il piano in base ai risultati parziali o agli imprevisti.
Mantiene il contesto anche in sessioni interrotte.
🛠️ STRUMENTI A DISPOSIZIONE DELL'AGENTE
2. Browser visuale
Naviga siti web come un utente umano: clicca, scrolla, compila form, invia dati.
Utile per acquisti online, prenotazioni, interazioni su siti aziendali.
3. Browser testuale
Ottimizzato per lettura veloce, scraping, sintesi e ricerche su web.
Perfetto per raccogliere e confrontare informazioni da più fonti.
4. Terminale (Command Line)
Esegue comandi su ambienti simulati o remoti.
Lavora con file, script, dati strutturati.
Utile per utenti tecnici o task di automazione avanzata.
5. API connector
Collega servizi come Gmail, Google Calendar, GitHub, Drive, Slack, Notion, ecc.
Può leggere, scrivere, inviare e organizzare contenuti nei tuoi strumenti reali.
📂 OPERAZIONI SUI FILE
6. Creazione e modifica documenti
Genera file PowerPoint, Word, Excel o CSV.
Compone testi, tabelle, report o presentazioni complete.
Applica formattazione automatica e grafici su richiesta.
7. Download e gestione
Scarica file da siti o link.
Può aprirli, analizzarli, modificarli, rinominarli e risalvarli in cloud.
📅 INTEGRAZIONE CON LA VITA REALE
8. Gestione del calendario
Legge appuntamenti e disponibilità.
Propone slot, crea eventi, invia inviti.
9. Automazione attività quotidiane
Fa la spesa online.
Organizza viaggi o eventi.
Compila moduli, prenota ristoranti, trova hotel o voli.
10. Analisi concorrenza / ricerca di mercato
Confronta siti concorrenti, estrapola dati, riassume vantaggi e svantaggi.
Può creare un file di sintesi o una presentazione.
🧯 SICUREZZA E TRASPARENZA
11. Modalità “Watch”
Quando opera su contenuti sensibili (email, soldi, account), entra in modalità sorvegliata.
Mostra ogni passaggio prima di eseguirlo.
12. Conferme per azioni critiche
Chiede all’utente il permesso prima di fare qualsiasi cosa rischiosa (es. acquisti, invii, cancellazioni).
13. Storico delle azioni
Tiene traccia dettagliata di tutto ciò che fa.
Può mostrare un log e giustificare ogni passaggio.
🔐 PROTEZIONE AVANZATA
14. Anti-abuso e prompt injection defense
Riconosce richieste potenzialmente dannose.
Blocca o neutralizza tentativi di inganno da parte di siti o prompt manipolativi.
15. Uso limitato della memoria
Parte con memoria disattivata, a tutela della privacy.
Può essere attivata volontariamente per ricordare preferenze o contesto tra sessioni.
⚙️ PERFORMANCE E DISPONIBILITÀ
16. Tempi di esecuzione
Task semplici: pochi secondi.
Task complessi multi-step: fino a 15-60 minuti (viene notificato lo stato).
17. Limiti mensili
Circa 400 prompt al mese per utenti Pro.
40 prompt con agent per gli altri piani.
In espansione progressiva per aziende e scuole.
18. Attualmente disponibile
Accesso tramite ChatGPT (Pro/Team).
Attivo da subito in paesi selezionati (non ancora in UE e Svizzera).
🧭 ESEMPI PRATICI DI TASK GESTIBILI
“Organizza un weekend a Roma con prenotazione treni, hotel e ristoranti.”
“Leggi la mia inbox e crea un report delle scadenze fiscali.”
“Compra 5 articoli da Amazon e mandali a tre indirizzi diversi.”
“Analizza tre competitor e crea una slide con le differenze.”
“Connettiti al mio calendario e trova 3 slot per una riunione settimanale.”



Commenti