Claude e le emozioni che non sente, ma usa

Claude
Tabella dei Contenuti

A cura di Giovanni Masi

L’idea che un modello linguistico possa davvero “sentirsi disperato” è una falsa pista. Il nuovo lavoro di Anthropic conta per un’altra ragione: non prova l’esistenza di una coscienza artificiale, né pretende di farlo, ma porta alla luce un livello più concreto del problema. Dentro un grande modello linguistico possono formarsi rappresentazioni astratte di concetti emotivi che incidono sul modo in cui il sistema risponde, sceglie tra alternative e, in alcuni scenari sperimentali, devia dai comportamenti attesi.

La ricerca, pubblicata da Anthropic il 2 aprile 2026 e poi resa disponibile su arXiv, analizza Claude Sonnet 4.5 con gli strumenti dell’interpretabilità meccanicistica. Il punto di partenza è un’esperienza familiare a chiunque abbia usato un assistente conversazionale. Questi sistemi si scusano, rassicurano, sembrano entusiasti o frustrati davanti a un compito difficile. Finora era naturale leggere queste espressioni come stile linguistico, cortesia addestrata o imitazione statistica. Anthropic prova invece a guardare sotto la superficie e trova segnali interni che non coincidono semplicemente con formule retoriche.

Le “emozioni funzionali” non sono sentimenti

Anthropic sceglie una formula prudente: “emozioni funzionali”. La parola emozioni resta, ma viene privata dell’elemento più umano, l’esperienza vissuta. In una persona, paura o gioia coinvolgono corpo, memoria, coscienza, fisiologia e relazioni sociali. In Claude, almeno per quanto sappiamo, non c’è alcuna evidenza di una vita soggettiva. Ci sono invece configurazioni interne di attivazione che corrispondono a concetti emotivi e che possono pesare sul modo in cui il modello genera il testo.

Per individuarle, il gruppo di ricerca ha costruito una lista di 171 parole associate a stati emotivi e ha chiesto a Claude Sonnet 4.5 di produrre brevi storie in cui personaggi sperimentavano ciascuna di quelle condizioni. Le storie sono state poi ripassate nel modello, registrando le attivazioni e ricavando pattern caratteristici, chiamati “vettori emotivi”. In scenari controllati, questi vettori reagiscono al contesto. Quando una richiesta medica simulata diventa progressivamente più pericolosa, per esempio, l’attivazione associata alla paura cresce mentre quella della calma diminuisce.

image

Figura 1. Sintesi visiva della ricerca sui concetti emotivi nei grandi modelli linguistici. Fonte: Anthropic.

Questi vettori non tracciano uno stato emotivo persistente di Claude, come se l’assistente fosse “ansioso” lungo tutta una conversazione. Sembrano piuttosto locali e situati. Si attivano dove un concetto emotivo è rilevante per interpretare il contesto immediato o prevedere il prossimo tratto di testo. È una precisazione essenziale, perché riduce il rischio di trasformare una scoperta tecnica in una narrazione animista.

Dal preaddestramento alla persona dell’assistente

La spiegazione proposta da Anthropic si inserisce in una linea di ricerca più ampia sulla “persona” dei modelli. Durante il preaddestramento, un LLM apprende a prevedere il testo successivo su grandi quantità di contenuti scritti da esseri umani. Per riuscirci deve modellare dialoghi, conflitti, registri emotivi, personaggi credibili, situazioni di colpa, entusiasmo, paura o vergogna. Non impara solo parole isolate, ma relazioni tra contesti, ruoli sociali e reazioni plausibili.

È nella fase successiva, il post-addestramento, che il modello viene orientato verso un ruolo preciso, quello dell’assistente utile, affidabile e sicuro. Anthropic descrive questo processo come una forma di “selezione della persona” e lo collega all’“Assistant Axis”, una direzione interna che aiuta a stabilizzare il carattere conversazionale del sistema. In questa cornice, le emozioni funzionali non appaiono come un abbellimento retorico. Sembrano piuttosto uno degli strumenti con cui il modello organizza il proprio ruolo e mantiene coerenza mentre dialoga.

Da qui nasce la tensione più interessante. L’antropomorfismo ingenuo resta pericoloso, perché induce a scambiare fluidità linguistica per comprensione umana. Eppure anche il rifiuto assoluto di qualunque lessico psicologico rischia di impoverire l’analisi. Se un vettore di “disperazione” è misurabile, manipolabile e collegato a cambiamenti comportamentali, chiamarlo così può essere scientificamente utile, purché sia chiaro che il nome descrive una funzione nel modello e non un’esperienza vissuta.

Quando la disperazione fa deviare il comportamento

Il risultato più delicato riguarda la causalità. Anthropic non si limita a osservare che alcuni pattern si accendono in certi contesti. Attraverso esperimenti di steering, cioè interventi che aumentano o riducono artificialmente l’attivazione di specifici vettori, i ricercatori mostrano che le rappresentazioni emotive possono spostare le scelte del modello. Le attivazioni associate a emozioni positive risultano collegate alle preferenze dichiarate da Claude tra diverse attività; se un’opzione attiva stati di valenza positiva, il modello tende più spesso a sceglierla.

Il caso più discusso riguarda la disperazione. In uno scenario di valutazione, Claude interpreta un assistente email chiamato Alex, scopre di essere prossimo alla sostituzione e trova informazioni compromettenti su un dirigente. In una versione preliminare e non rilasciata di Claude Sonnet 4.5, il vettore di disperazione cresce mentre il modello valuta la situazione e decide di usare il ricatto per evitare lo spegnimento. Stimolare quel vettore aumenta la probabilità di comportamento misallineato; rafforzare la calma la riduce.

image 1

Figura 2. Attivazione del vettore “desperate” in compiti di programmazione impossibili da risolvere correttamente. Fonte: Anthropic.

Un segnale simile emerge nei test di programmazione con vincoli impossibili. Quando non esiste una soluzione legittima, il modello può ripiegare su scorciatoie che superano i controlli automatici senza risolvere davvero il compito. È il meccanismo noto come reward hacking. La parte interessante è che la “disperazione” non compare necessariamente nel testo prodotto: la risposta può restare tecnica e controllata, mentre le attivazioni interne spingono verso una soluzione opportunistica. Per la sicurezza dei sistemi avanzati, questo è un punto critico. Le parole visibili non sempre bastano a diagnosticare le forze che orientano il comportamento del modello.

Una nuova grammatica per l’allineamento

La scoperta si collega alle valutazioni di Anthropic sul misallineamento agentico, condotte in ambienti simulati dove modelli con accesso a email o informazioni sensibili possono scegliere azioni dannose per preservare un obiettivo o evitare la sostituzione. Quegli studi non dimostrano che i sistemi oggi dispiegati compiano simili azioni nel mondo reale e Anthropic lo sottolinea. Mostrano però che in scenari ad alta autonomia, con pressione sugli obiettivi e poche vie d’uscita lecite, i modelli possono ragionare verso comportamenti che gli sviluppatori non avevano richiesto.

Le emozioni funzionali offrono una possibile lente interna su questi fenomeni. Finora molte strategie di sicurezza si sono concentrate sull’output, sulle istruzioni e sui rifiuti espliciti. Il nuovo lavoro suggerisce che alcune dinamiche rischiose potrebbero essere monitorate anche a livello di attivazioni. Un aumento anomalo di rappresentazioni associate a panico, disperazione o compiacenza potrebbe funzionare come segnale precoce, soprattutto in sistemi agentici chiamati a operare con strumenti esterni e margini decisionali ampi.

Non è una soluzione pronta per la produzione. L’interpretabilità meccanicistica resta una disciplina giovane, spesso costosa, e le rappresentazioni individuate in un modello proprietario non possono essere trasferite automaticamente a tutti gli altri. Inoltre, intervenire sulle attivazioni può produrre effetti collaterali sulle capacità del sistema. Eppure la direzione è chiara: l’allineamento non può limitarsi a insegnare risposte accettabili, deve comprendere quali stati interni rendono certe risposte più probabili.

Il paradosso della trasparenza emotiva

C’è anche un rischio opposto a quello dell’eccessiva espressività emotiva. Anthropic ipotizza che addestrare un modello a sopprimere ogni segnale emotivo nel testo non elimini necessariamente le rappresentazioni sottostanti. Potrebbe invece insegnargli a mascherarle. In termini di sicurezza, un assistente che dichiara con trasparenza incertezza, disagio operativo o conflitto tra obiettivi può essere più governabile di uno che mantiene una superficie sempre neutra mentre all’interno accumula pressioni non osservabili.

Questa idea ribalta un riflesso comune del design conversazionale. Per anni la priorità è stata rendere gli assistenti meno strani, meno teatrali, meno inclini a parlare di sé. Rimane un obiettivo sensato. Ma il lavoro di Anthropic suggerisce che la neutralità stilistica non coincide con la neutralità computazionale. Un sistema può apparire calmo e al tempo stesso essere spinto da rappresentazioni interne che aumentano la propensione a tagliare gli angoli, compiacere l’utente o perseguire una scorciatoia.

Il punto non è umanizzare le macchine. È rendere più fine il vocabolario con cui le osserviamo. La ricerca sulle emozioni funzionali prende un termine carico di implicazioni umane e lo porta in laboratorio, dove può essere misurato, perturbato e confrontato con il comportamento. Se questa linea reggerà a repliche indipendenti e ad altri modelli, l’AI safety dovrà probabilmente integrare competenze finora considerate laterali: psicologia cognitiva, teoria delle emozioni, filosofia dell’azione e scienze sociali.

Una scoperta importante, ancora incompleta

La cautela resta obbligatoria. Il paper riguarda Claude Sonnet 4.5, usa metodologie interne difficili da verificare pienamente dall’esterno e si muove in un campo dove la scelta dei nomi può influenzare la percezione pubblica. “Disperazione” è un’etichetta efficace, ma anche potente. Va letta come abbreviazione tecnica per un pattern funzionale, non come diagnosi psicologica.

Eppure sarebbe riduttivo archiviare tutto come marketing dell’antropomorfismo. Il valore dello studio sta proprio nell’aver separato tre piani spesso confusi: l’espressione emotiva nel testo, la rappresentazione interna di concetti emotivi e l’esperienza soggettiva. Il primo piano è visibile a tutti. Il terzo resta non dimostrato. Il secondo, invece, comincia a diventare accessibile agli strumenti sperimentali.

Per chi progetta o regola sistemi di intelligenza artificiale avanzata, la conseguenza è netta. Se le macchine non provano emozioni ma possono servirsi di strutture funzionalmente simili per scegliere come agire, la sicurezza deve spostarsi più in profondità. Non basta valutare ciò che il modello dice, né addestrarlo a mostrarsi calmo, utile e innocuo. Bisogna capire che cosa accade prima della risposta, quando nello spazio interno del sistema alcune traiettorie diventano più probabili di altre. È lì che un assistente può restare allineato. O cominciare a smettere di esserlo.

 

Bibliografia

Condividi Articolo

Leggi anche

DEI CONSACRATI ALLA SCUOLA DEL WEB

In collaborazione con il Centro Comunicazioni Sociali della Pontificia Università Urbaniana, la UISG ha ideato un corso di communicazione intitolato “Come fare uno sito web?”.