LLM, cosa sono oggi i modelli linguistici che stanno ridisegnando l’AI

Giugno 5, 2026
Giovanni Masi

A cura di Giovanni Masi

La macchina che scrive non pensa, ma calcola il linguaggio

Gli LLM sono entrati nel lessico pubblico con una rapidità superiore alla nostra capacità di comprenderli davvero. Li abbiamo visti scrivere testi, rispondere a domande, produrre codice, riassumere documenti e dialogare con una naturalezza che fino a pochi anni fa sembrava fuori portata. Da qui nasce l’equivoco più diffuso: scambiare la fluidità della risposta per una forma di pensiero.

Un Large Language Model non pensa come una persona e non possiede una coscienza. È un sistema di intelligenza artificiale progettato per elaborare e generare linguaggio naturale attraverso relazioni statistiche apprese da grandi quantità di testo. Questa distinzione è fondamentale, perché consente di capire insieme la forza e la fragilità dell’AI generativa. Il modello può produrre frasi ordinate, convincenti, perfettamente grammaticali, ma non per questo necessariamente vere.

Il tema dell’AI come strumento di trasformazione tecnologica e sociale è stato al centro di un precedente confronto pubblicato su Il Fatto Digitale, nel quale emergeva un punto ancora attuale: l’intelligenza artificiale può incidere su sanità, industria, finanza, formazione e intrattenimento, ma resta una tecnologia che impara dai nostri dati, dai nostri schemi e dalle nostre rappresentazioni del mondo. Non comprende davvero ciò che elabora. Manipola simboli, pattern e probabilità. Capire questa distinzione significa usare gli LLM per ciò che sono: strumenti potenti di elaborazione linguistica, non autorità infallibili sul vero.

Token, embedding e transformer: la grammatica interna degli LLM

Per capire un LLM conviene partire da una frase incompleta. “Domani andrò al…” apre un ventaglio di possibilità. Mare, lavoro, cinema, parco. Alcune continuazioni appaiono naturali, altre improbabili. Un modello linguistico opera dentro uno spazio simile, ma non lavora direttamente con parole e significati come farebbe un essere umano.

Il testo viene prima scomposto in token, unità che possono corrispondere a parole intere, parti di parole, caratteri o segni di punteggiatura. Ogni token viene poi trasformato in una rappresentazione numerica, chiamata embedding. È qui che il linguaggio diventa calcolo. Le parole non sono più soltanto elementi di una frase, ma rappresentazioni numeriche che il modello utilizza per calcolare relazioni linguistiche, somiglianze e dipendenze di contesto.

Il funzionamento interno dei Large Language Models, dai token agli embedding fino all’architettura transformer, è stato oggetto di un approfondimento dedicato al mondo degli LLM. La svolta tecnica resta proprio il transformer, introdotto nel 2017 con il paper “Attention Is All You Need”. Il suo elemento centrale è il meccanismo di attenzione, che permette al sistema di pesare la rilevanza delle diverse parti di un testo e di trattare una sequenza non come una catena rigida, ma come una rete di relazioni.

La previsione probabilistica non è conoscenza

Durante l’addestramento, un LLM viene esposto a enormi quantità di dati testuali: libri, articoli, conversazioni, documenti tecnici, pagine web. Da questa esposizione non nasce un archivio consultabile, ma una rappresentazione statistica del linguaggio. Il modello non memorizza le informazioni come farebbe un database. Codifica correlazioni nei propri parametri numerici e le utilizza per generare risposte sulla base della probabilità linguistica.

Quando riceve un prompt, il modello stima una distribuzione di probabilità sui possibili token successivi. La generazione seleziona poi uno di questi token secondo le impostazioni del sistema e aggiorna il contesto. La risposta nasce così, passo dopo passo, come una traiettoria dentro uno spazio probabilistico appreso durante l’addestramento.

Questa dinamica spiega perché gli LLM possano sembrare così competenti. Il linguaggio umano non occupa in modo uniforme tutte le combinazioni possibili. Alcune forme sintattiche, alcuni schemi argomentativi e certe associazioni concettuali ricorrono molto più spesso di altre. Il modello tende a muoversi in queste regioni dense, dove la grammatica è stabile e la progressione del discorso appare plausibile.

Il punto critico è che plausibile non significa vero. Una frase può essere statisticamente compatibile con il contesto e, allo stesso tempo, fattualmente sbagliata. Questa è una delle chiavi per capire le allucinazioni dei modelli linguistici.

Grounding: ancorare il modello al mondo delle fonti

Per rendere gli LLM utilizzabili in contesti professionali non basta chiedere risposte più fluide. Serve introdurre il grounding, cioè l’ancoraggio della generazione a informazioni, vincoli e fonti verificabili. Il concetto è decisivo perché sposta il baricentro dalla sola capacità linguistica alla responsabilità informativa.

Un modello non grounded risponde soprattutto in base alla conoscenza compressa nei suoi parametri e al contesto fornito nel prompt. Un sistema grounded, invece, viene guidato da elementi esterni: documenti aziendali, basi dati aggiornate, manuali tecnici, norme, cartelle cliniche, knowledge base, risultati di strumenti software o contenuti recuperati al momento. La risposta non nasce più soltanto dalla probabilità linguistica, ma dal confronto tra ciò che il modello sa generare e ciò che una fonte autorizzata consente di affermare.

Il grounding non coincide semplicemente con il collegamento a Internet. È una disciplina di progettazione. Significa scegliere fonti affidabili, strutturare il recupero dei documenti, distinguere contenuto rilevante e rumore, conservare tracciabilità e ridurre il rischio che il modello costruisca risposte non supportate dalle evidenze disponibili. In un sistema maturo, la domanda non è solo “la risposta suona bene?”, ma “da dove arriva, su cosa si fonda, quanto è verificabile?”.

RAG, fonti esterne e affidabilità operativa

La tecnica oggi più associata al grounding è la Retrieval-Augmented Generation. Il RAG collega il modello a fonti esterne aggiornabili, come database, documenti aziendali, archivi normativi o motori di ricerca specializzati. Prima della generazione, il sistema recupera i contenuti più pertinenti; poi il modello costruisce la risposta utilizzando quel contesto. IBM descrive il RAG come un’architettura che migliora la qualità delle risposte collegando i modelli a fonti esterne di conoscenza; Microsoft lo presenta come un pattern che estende le capacità degli LLM fondando le risposte su contenuti proprietari o controllati.

È una differenza importante rispetto al fine-tuning. Il fine-tuning adatta il comportamento del modello a un dominio, a un compito o a uno stile. Il RAG, invece, gli fornisce conoscenza esterna durante la generazione. In molti scenari professionali non serve “insegnare” tutto al modello. Serve metterlo nelle condizioni di consultare le fonti corrette, restituire risposte tracciabili e riconoscere quando l’informazione non è disponibile.

Il RAG non rende un LLM un motore di verità e non gli attribuisce una capacità autonoma di verifica. Il sistema recupera informazioni da fonti esterne e costruisce la risposta su un contesto più controllabile, riducendo il rischio di allucinazioni senza eliminarlo. Può recuperare documenti sbagliati, interpretare male un passaggio, dare troppo peso a una fonte debole o ignorare un vincolo essenziale. Per questo l’affidabilità dipende dall’intera architettura: qualità dei dati, motore di retrieval, ranking, controlli di sicurezza, valutazione della coerenza con le fonti e supervisione umana.

Dai chatbot agli ecosistemi multimodali

Definirli generatori di testo, oggi, è ormai insufficiente. Gli LLM nascono come modelli linguistici, centrati sull’elaborazione e generazione di testo, ma nei sistemi AI contemporanei diventano spesso il nucleo linguistico di architetture più ampie. In molti casi la multimodalità non deriva dal solo LLM, ma dall’orchestrazione di più componenti: modelli per immagini, audio e video, sistemi di retrieval, basi documentali, API e strumenti software.

In altri casi, invece, la multimodalità è incorporata nel modello stesso, come accade nei modelli di frontiera progettati per trattare più tipi di input. È il caso, per esempio, di GPT-4o, descritto da OpenAI come capace di ragionare su audio, visione e testo in tempo reale, o dei modelli Llama 3.2 Vision, che Meta presenta come “vision LLMs”.

Nel mondo aziendale, questi sistemi possono supportare la redazione di documenti, la gestione della conoscenza interna, l’assistenza clienti, la revisione di contratti, la produzione di codice e l’analisi di grandi moli informative. Nell’istruzione possono diventare tutor personalizzati. Nella ricerca scientifica possono accelerare la revisione della letteratura e suggerire connessioni tra ipotesi. In sanità possono supportare l’analisi di dati clinici, sempre entro confini rigorosi di responsabilità professionale.

Esempi come manutenzione predittiva, robotica collaborativa e analisi dei dati clinici mostrano bene la trasformazione in corso. Gli LLM rientrano in questa traiettoria più ampia. Non sostituiscono il giudizio umano, ma possono aumentare la capacità delle persone di gestire informazione, complessità e ripetitività.

Allucinazioni e bias: il prezzo della plausibilità

Le allucinazioni sono risposte che sembrano corrette ma sono inesatte, inventate o non verificabili. Non sono un’anomalia superficiale. Derivano dalla natura stessa dei modelli linguistici, che apprendono correlazioni statistiche ma non verificano autonomamente la verità delle informazioni. Quando i dati sono incompleti, obsoleti o ambigui, il modello può riempire i vuoti con una risposta formalmente credibile.

Il rapporto tra plausibilità, errore e distorsioni nei dati è stato affrontato anche in un approfondimento su allucinazioni e bias nei modelli LLM. In quel confronto veniva chiarito un punto essenziale: gli LLM non funzionano come database, generano risposte su base probabilistica e devono essere integrati con fonti controllate quando vengono usati in contesti in cui accuratezza e tracciabilità sono decisive.

Il punto resta cruciale nei settori ad alta responsabilità. Una risposta errata in ambito medico, giuridico, finanziario o amministrativo può produrre conseguenze concrete. Per questo servono grounding, fonti controllate, audit, supervisione umana e sistemi capaci di esprimere incertezza.

Accanto alle allucinazioni c’è il tema dei bias. I modelli apprendono da dati generati da società reali, quindi assorbono anche squilibri culturali, storici e linguistici. Se usati senza controllo, possono riprodurre stereotipi o amplificarli. L’etica, in questo campo, non è un capitolo accessorio. È parte dell’ingegneria del rischio.

Governance, AI Act e responsabilità umana

Il futuro degli LLM non dipenderà solo dalla potenza dei modelli. Dipenderà dalla capacità di costruire un equilibrio tra innovazione, affidabilità, sicurezza e sostenibilità. L’AI Act europeo, entrato in vigore il 1 agosto 2024, prevede un’applicazione progressiva: il regolamento diventerà pienamente applicabile il 2 agosto 2026, con alcune eccezioni, mentre gli obblighi per i provider di modelli di AI general-purpose sono entrati in applicazione dal 2 agosto 2025.

La stessa prospettiva emerge nei framework internazionali dedicati al rischio dell’AI generativa. Il profilo NIST per l’AI generativa è una risorsa collegata all’AI Risk Management Framework e propone un approccio cross-settoriale alla gestione dei rischi specifici di questi sistemi. Non basta chiedersi cosa può fare un modello. Occorre chiedersi con quali dati è stato addestrato, quali controlli incorpora, come gestisce gli errori, chi risponde delle sue decisioni e in quali contesti può essere usato senza compromettere diritti, sicurezza o fiducia pubblica.

Gli LLM, e più in generale i foundation models che da essi si sono evoluti, sono oggi una delle tecnologie più importanti dell’ecosistema digitale. Non sono menti artificiali e non sono semplici archivi di frasi. Sono sistemi che comprimono regolarità linguistiche, generano testo attraversando spazi probabilistici e, sempre più spesso, diventano interfacce verso processi, dati e strumenti. La loro forza è rendere il linguaggio una porta d’accesso alla complessità.

Il loro limite è che una risposta convincente non basta a renderla vera, giusta o sicura. Il grounding è il tentativo più concreto di colmare questa distanza: non trasforma un modello linguistico in un motore di verità, ma lo costringe a dialogare con il mondo delle fonti, dei dati e della responsabilità.

Bibliografia

Francesco Evangelisti, “L’Intelligenza Artificiale secondo Giovanni Masi: tra innovazione, sfide etiche e prospettive future”, Il Fatto Digitale, 11 dicembre 2024.

Riccardo Petricca, “Viaggio nel mondo dei Large Language Models: una conversazione approfondita con Giovanni Masi”, Il Fatto Digitale, 13 dicembre 2024.

Riccardo Petricca, “Allucinazioni e Bias nei modelli LLM: un’intervista con l’Ing. Giovanni Masi”, Il Fatto Digitale, 23 dicembre 2024.

Ashish Vaswani et al., “Attention Is All You Need”, arXiv, 2017.

OpenAI Help Center, “What are tokens and how to count them?”.

Patrick Lewis et al., “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks”, arXiv, 2020.

IBM Research, “What is retrieval-augmented generation?”, 2023.

Microsoft Learn, “Retrieval-Augmented Generation in Azure AI Search”, 2026.

NIST, “Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile”, 2024.

European Commission, “AI Act” e “Guidelines for providers of general-purpose AI models”.

Condividi Articolo