L’AI diventa un’infrastruttura operativa, ma la fluidità non garantisce la verità

Giugno 19, 2026
Giovanni Masi

A cura di Giovanni Masi

L’intelligenza artificiale sta cambiando natura prima ancora che il dibattito pubblico riesca a definirne con precisione il ruolo. Da strumento accessorio, confinato alla produzione di testi e immagini, si sta trasformando in uno strato operativo che attraversa il lavoro, l’informazione e le decisioni. La sua influenza non dipende soltanto da ciò che i modelli sanno generare, ma dal punto in cui vengono collocati, dai dati a cui accedono e dalla fiducia che gli utenti sono disposti ad accordare alle loro risposte.

Non è più la stagione dei chatbot

L’intelligenza artificiale generativa non vive più soltanto nella finestra di una chat. Entra nei documenti, nei software aziendali, negli archivi, nei flussi amministrativi e nelle attività quotidiane di imprese, professionisti, scuole e pubbliche amministrazioni. Non serve più soltanto a scrivere testi o riassumere informazioni. Analizza file, produce codice, prepara report, costruisce presentazioni, interroga basi di dati e, nei sistemi più avanzati, utilizza strumenti esterni sotto supervisione umana.

La distinzione decisiva non è più tra chi usa l’AI e chi la osserva da lontano, ma tra chi continua a considerarla un motore di risposte e chi ha compreso che sta diventando un’infrastruttura operativa.

Non siamo davanti a chatbot semplicemente più brillanti. Stanno emergendo piattaforme che iniziano a comportarsi come veri ambienti di lavoro. ChatGPT, Claude e Gemini non competono soltanto sulla qualità linguistica delle risposte, ma sulla capacità di inserirsi nel punto in cui le attività prendono forma, tra documenti, calendari, repository, browser, fogli di calcolo, email e procedure aziendali.

OpenAI descrive ChatGPT Agent come un sistema capace di combinare ricerca e azione attraverso strumenti integrati. Anthropic presenta Claude Code come un ambiente agentico in grado di leggere basi di codice, modificare file ed eseguire comandi. Google, dal canto suo, porta Gemini direttamente nel flusso quotidiano di Gmail, Docs, Sheets, Slides, Drive e Chat.

La comodità che abbassa la soglia critica

La potenza di questi sistemi non ne elimina l’inaffidabilità. Un modello può produrre un’analisi brillante e subito dopo commettere un errore elementare. Può costruire un testo formalmente impeccabile intorno a un’informazione non verificata e trasmettere un’impressione di competenza anche quando non dispone di elementi sufficienti per formulare una risposta attendibile.

Per comprendere questa contraddizione bisogna ricordare che i grandi modelli linguistici sono sistemi probabilistici. Non recuperano necessariamente una risposta già presente in un archivio e non elaborano il significato delle frasi nello stesso modo di una persona. Durante l’addestramento imparano a prevedere quale elemento linguistico possa seguire una determinata sequenza. Quando generano una risposta, calcolano passo dopo passo una distribuzione di probabilità sui possibili token successivi. Il sistema seleziona o campiona quindi uno di questi token, tenendo conto del contesto disponibile e dei parametri utilizzati per la generazione.

I token possono corrispondere a parole intere, parti di parole, numeri o segni di punteggiatura. Di fronte a una frase come «Il cielo durante una giornata serena appare», il modello attribuirà normalmente una probabilità maggiore ad “azzurro” rispetto a “quadrato”. Non perché abbia osservato il cielo o possieda un’esperienza del colore, ma perché ha appreso relazioni statistiche e semantiche che rendono la prima continuazione più coerente con il contesto.

Il funzionamento reale è molto più sofisticato di una semplice catena di parole frequenti. I modelli rappresentano relazioni tra termini, concetti e strutture linguistiche su più livelli e possono svolgere operazioni che assomigliano al ragionamento. Il preaddestramento resta fondato sulla previsione del token successivo. Da questo processo emergono capacità linguistiche e operative complesse, ma non una garanzia automatica di verità.

Gli attuali modelli linguistici sono sistemi computazionali e non esistono prove condivise che possiedano una vita mentale o un’esperienza soggettiva del mondo. Elaborano rappresentazioni statistiche, generano risposte e riproducono registri emotivi o intenzionali senza vivere ciò che descrivono. Possono parlare di un’emozione, dolore o coscienza perché hanno assorbito testi umani su questi temi, non perché provino ciò che descrivono.

Quando la fluidità diventa un rischio

È nello scarto tra plausibilità linguistica e attendibilità fattuale che trova origine una parte delle cosiddette allucinazioni. Una continuazione può essere coerente con la forma del discorso e tuttavia risultare falsa. Le cause non dipendono da un solo meccanismo. Contano la qualità e la copertura dei dati, l’assenza di informazioni affidabili nel contesto, i metodi di addestramento e sistemi di valutazione che possono premiare una risposta tentata più di un’ammissione di incertezza. La ricerca ha sviluppato tecniche per individuare alcune di queste generazioni, ma il problema non è stato eliminato.

Un errore prodotto dal modello non equivale automaticamente a una menzogna intenzionale, perché il sistema non possiede consapevolezza o intenzioni nel senso umano. Può tuttavia generare informazioni false con lo stesso tono sicuro utilizzato per una risposta corretta e, in esperimenti controllati o particolari contesti agentici, mostrare comportamenti funzionalmente ingannevoli. Gli assistenti conversazionali sono inoltre ottimizzati per risultare utili e collaborativi. Questa caratteristica può tradursi in compiacenza, spingendoli ad assecondare presupposti, convinzioni o interpretazioni dell’utente anche quando sarebbe necessario metterli in discussione. È proprio la qualità della forma a rendere il problema più insidioso: un contenuto fragile può acquistare autorevolezza grazie alla fluidità con cui viene presentato e alla tendenza del sistema a confermare l’interlocutore.

Il rischio non è soltanto che l’AI sbagli. È che diventi comoda. Quando uno strumento risponde rapidamente, con tono sicuro e struttura elegante, l’utente tende ad abbassare la soglia critica. Nel lavoro questo può tradursi in delega eccessiva, nella scuola in apprendimento impoverito, nel giornalismo in sintesi non controllate, nella pubblica amministrazione in automatismi applicati a passaggi delicati. La domanda decisiva non è se il modello sia “intelligente”, ma dentro quale processo di verifica venga inserito e chi resti responsabile della decisione finale.

Lo stesso vale per i bias. I sistemi apprendono da dati prodotti dalla società e possono incorporare o amplificare stereotipi, squilibri ed esclusioni. Quando entrano nella selezione del personale, nell’accesso al credito, nella sanità, nell’istruzione, nella sicurezza o nei servizi pubblici, una distorsione non è più una semplice imperfezione tecnica. Diventa un fatto sociale e giuridico. L’apparenza di neutralità matematica può mascherare una discriminazione automatizzata.

Esiste infine un livello psicologico e culturale. L’uso della prima persona, la coerenza delle risposte e la capacità di adattare il tono spingono molte persone ad attribuire alla macchina comprensione e autorevolezza che non sono dimostrate. L’intelligenza artificiale non influenza soltanto ciò che facciamo. Modifica anche il modo in cui percepiamo il nostro giudizio, la nostra competenza e la nostra autonomia.

La maturità nell’uso dell’intelligenza artificiale si misurerà quindi meno nella quantità di attività affidate ai modelli e più nella qualità delle verifiche costruite intorno a essi. Quanto più questi sistemi si avvicinano al cuore dei processi professionali e istituzionali, tanto più diventa necessario distinguere la fluidità dalla conoscenza, l’efficienza dall’affidabilità e l’assistenza dalla delega. La nuova infrastruttura digitale non è neutrale né infallibile. Il suo potere dipenderà anche dalla capacità umana di conservarne il controllo.

Bibliografia

OpenAI, Introducing ChatGPT agent: bridging research and action, 17 luglio 2025.

Anthropic, Claude Code overview, documentazione ufficiale, consultata il 18 giugno 2026.

Google Workspace, Google Workspace with Gemini, documentazione ufficiale, consultata il 18 giugno 2026.

Yingcong Li, Yixiao Huang, M. Emrullah Ildiz, Ankit Singh Rawat e Samet Oymak, Mechanics of Next Token Prediction with Self-Attention, Proceedings of the 27th International Conference on Artificial Intelligence and Statistics, AISTATS 2024, PMLR, vol. 238.

Patrick Butlin et al., Consciousness in Artificial Intelligence: Insights from the Science of Consciousness, arXiv:2308.08708, 2023.

Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn e Yarin Gal, Detecting Hallucinations in Large Language Models Using Semantic Entropy, «Nature», vol. 630, pp. 625–630, 2024.

Mrinank Sharma et al., Towards Understanding Sycophancy in Language Models, International Conference on Learning Representations, ICLR 2024.

Jérémy Scheurer, Mikita Balesni e Marius Hobbhahn, Large Language Models Can Strategically Deceive Their Users When Put Under Pressure, arXiv:2311.07590, 2023.

Chloe Autio et al., Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile, NIST AI 600-1, National Institute of Standards and Technology, 2024.

Michelle Cohn et al., Believing Anthropomorphism: Examining the Role of Anthropomorphic Cues on Trust in Large Language Models, Extended Abstracts of the CHI Conference on Human Factors in Computing Systems, 2024.

Condividi Articolo