TRIBE v2 di Meta: come un foundation model tri-modale apre nuovi scenari per le neuroscienze

Marzo 29, 2026
Giovanni Masi

A cura di Giovanni Masi

Perché TRIBE v2 merita attenzione

TRIBE v2 è uno di quei progetti che attirano attenzione per il titolo ancora prima che per il contenuto. Un modello di intelligenza artificiale capace di prevedere come il cervello risponde a immagini, suoni e linguaggio sembra infatti appartenere, almeno in apparenza, alla retorica della “lettura della mente”. Il contributo di Meta è però più interessante e, allo stesso tempo, più misurato. TRIBE v2 non legge pensieri individuali e non accede alla coscienza. Fa qualcosa di diverso e scientificamente più concreto. Prova a costruire un modello unificato del brain encoding, cioè della relazione tra stimoli complessi e risposta cerebrale misurata con fMRI.

Il punto di partenza del paper è netto. La neuroscienza cognitiva ha prodotto negli anni una grande quantità di modelli utili, ma spesso molto specializzati. Esistono pipeline per la visione, altre per il linguaggio, altre ancora per l’audizione, quasi sempre legate a dataset ristretti e a paradigmi sperimentali molto specifici. TRIBE v2 prova a superare questa frammentazione. Gli autori lo presentano come un foundation model tri-modale, addestrato su oltre 1.100 ore di fMRI raccolte su 720 soggetti in otto dataset, con l’obiettivo di prevedere risposte cerebrali ad alta risoluzione in condizioni sia naturalistiche sia controllate.

Un cambio di scala per la neuroscienza computazionale

La scala del progetto conta più del semplice dato impressionistico. Significa che il modello non è stato costruito su un solo compito o su una singola popolazione sperimentale, ma su una combinazione di studi “deep”, con pochi soggetti e molte ore per partecipante, e studi “wide”, con molti soggetti e tempi più brevi. È una distinzione importante, perché mette insieme precisione individuale e capacità di generalizzazione. In un campo in cui la raccolta di dati è costosa e il rumore sperimentale resta elevato, disporre di una base così ampia cambia davvero il perimetro del problema.

Nel paper la previsione avviene sia sulla superficie corticale fsaverage5 sia sui voxel di otto regioni subcorticali, con l’obiettivo di preservare un’elevata risoluzione anatomica e funzionale. Questa scelta segnala un’ambizione diversa rispetto a molti modelli precedenti, spesso limitati a mappe più grossolane o a una sola famiglia di aree cerebrali. L’obiettivo non è soltanto ottenere una buona correlazione media, ma preservare più dettaglio anatomico e funzionale possibile.

Figura 1. Schema generale di TRIBE v2: acquisizione di segnali fMRI, estrazione di feature da video, audio e testo, quindi previsione delle risposte cerebrali. Fonte: paper TRIBE v2.

Come funziona l’architettura

Sul piano tecnico TRIBE v2 combina tre famiglie di rappresentazioni. Per il testo usa Llama 3.2, per l’audio Wav2Vec-BERT 2.0 e per il video V-JEPA 2. Questi encoder restano congelati e forniscono embedding temporali che vengono allineati su una griglia comune, compressi e poi fusi in un Transformer con finestre di 100 secondi. A valle del modello interviene un subject block che tiene conto delle differenze individuali e che può essere adattato quando si passa a soggetti non visti in addestramento.

Questo punto va spiegato con cautela. Il bersaglio del modello non è l’attività neurale “pura”, ma il segnale BOLD della risonanza magnetica funzionale, cioè una misura indiretta legata a variazioni emodinamiche. Per questo parlare di lettura dei pensieri sarebbe improprio. Più correttamente, TRIBE v2 predice pattern di risposta cerebrale probabili a partire da stimoli video, sonori e linguistici. La differenza non è semantica. È ciò che separa un risultato serio di brain encoding da una semplificazione spettacolare ma fuorviante.

I risultati che contano davvero

La parte più robusta del lavoro emerge nei confronti con le baseline. Gli autori non scelgono un avversario debole, ma una versione ottimizzata del classico modello FIR, alimentata con le stesse embedding multimodali usate da TRIBE v2. Il vantaggio del modello di Meta, quindi, non dipende dal fatto di partire da feature migliori, ma dall’architettura di integrazione. Nei dataset considerati il sistema supera in modo sistematico la baseline lineare e mostra una crescita dell’accuratezza di tipo log-lineare al crescere dei dati, senza un plateau evidente.

Ancora più interessante è la capacità di generalizzare a nuovi soggetti. Nei quattro dataset di test usati per la valutazione out-of-distribution, TRIBE v2 riesce a produrre in zero-shot una stima della risposta media di gruppo. Nel caso del dataset HCP, il paper riporta un valore di Rgroup vicino a 0,4, circa il doppio rispetto alla group-predictivity del soggetto mediano.

È un dato che non va enfatizzato oltre misura, ma che resta notevole. Significa che, in certe condizioni, il modello approssima la risposta collettiva meglio di quanto faccia la registrazione della maggior parte dei singoli partecipanti. Quando poi viene raffinato con una piccola quota di dati individuali, il fine-tuning migliora ulteriormente le prestazioni, con vantaggi di due-quattro volte rispetto a un encoder lineare addestrato da zero sullo stesso soggetto.

Figura 2. Generalizzazione zero-shot a nuovi soggetti e miglioramenti dopo fine-tuning con poca quantità di dati individuali. Fonte: paper TRIBE v2.

Dalla previsione all’esperimento in silico

Il salto più interessante, però, arriva quando TRIBE v2 non è più solo un predittore di risposte cerebrali, ma si propone anche come strumento per esperimenti in silico. Gli autori lo testano su protocolli dell’Individual Brain Charting e mostrano che il modello recupera risultati classici della neuroscienza visiva e del linguaggio. Nei localizer visivi riemergono aree ben note come la fusiform face area per i volti, la parahippocampal place area per i luoghi, la extrastriate body area per i corpi e la visual word-form area per i caratteri scritti. Nei task linguistici il modello riproduce andamenti compatibili con ciò che la letteratura si aspetta, dalle risposte a frasi brevi fino alla lateralizzazione sinistra nei contrasti sintattici e semantici.

Qui sta forse il valore più promettente del progetto. La fMRI resta una tecnologia lenta e costosa. Ogni nuovo protocollo richiede tempo macchina, soggetti, pre-processing e analisi. Un modello abbastanza affidabile da simulare in anticipo gli esiti plausibili di un paradigma non sostituisce l’esperimento vero, ma può aiutare a progettare meglio le ipotesi, a selezionare condizioni più informative e a ridurre una parte della sperimentazione esplorativa meno produttiva.

Multimodalità, interpretabilità e ciò che il modello suggerisce sul cervello

Il paper non si limita a riportare performance aggregate. Prova anche a capire che cosa il modello abbia imparato. Attraverso un’analisi ICA dello spazio latente finale, gli autori mostrano componenti che ricordano reti funzionali note, come il sistema visivo, la corteccia uditiva primaria, la language network, l’area del motion processing e la default mode network. Non è una dimostrazione definitiva di interpretabilità, ma è un segnale importante. Suggerisce che il modello non si limita a interpolare correlazioni locali e che una parte della sua struttura interna conserva un legame leggibile con l’organizzazione funzionale della corteccia.

C’è poi il tema della multimodalità, che è centrale. Quando TRIBE v2 viene addestrato su una sola modalità, video, audio e testo spiegano porzioni diverse del cervello. Il video domina nelle regioni visive, l’audio vicino alle cortecce uditive, il testo in una parte delle aree linguistiche e prefrontali. Il guadagno del modello integrato emerge soprattutto nelle aree associative. Nel paper i benefici più forti rispetto ai modelli unimodali emergono soprattutto in aree associative multisensoriali, dove l’integrazione tra modalità diverse diventa particolarmente rilevante. In altre parole, proprio dove il cervello combina segnali differenti per costruire contesto e significato, la multimodalità smette di essere un ornamento ingegneristico e diventa una necessità descrittiva.

Figura 3. La multimodalità migliora soprattutto le aree associative, con guadagni marcati nelle zone di integrazione tra video, audio e testo. Fonte: paper TRIBE v2.

Che cosa aggiunge la demo pubblica di Meta

Accanto al paper, Meta ha reso disponibile anche una demo pubblica utile per visualizzare in modo più intuitivo il tipo di output prodotto dal modello. La pagina presenta TRIBE v2 come un modello capace di prevedere risposte neurali a vista, suono e linguaggio e collega la visualizzazione al paper e al codice. Non sostituisce la lettura dell’articolo scientifico, ma aiuta a comprendere il tipo di output che il sistema produce, cioè mappe e serie temporali di risposta cerebrale predetta a partire da segmenti multimediali.

Dal punto di vista della comunicazione scientifica è una scelta sensata. Su temi così esposti a semplificazioni, mostrare esattamente che cosa il modello predice e in quale forma riduce il rischio di equivoci. La demo non racconta una mente “trasparente”. Mostra un sistema di previsione su segnali neurali indiretti e lo colloca nel suo contesto tecnico. È una differenza importante, soprattutto nel rapporto con il pubblico non specialistico.

Limiti reali e nodo etico

L’aspetto più serio, a questo punto, è non scambiare un progresso significativo con una teoria completa della mente. I limiti del progetto sono espliciti. La fMRI non cattura la dinamica millisecondo per millisecondo dei neuroni. Le modalità considerate sono tre e lasciano fuori una parte dell’esperienza corporea, dall’olfatto alla somatosensazione. Inoltre il modello tratta il cervello soprattutto come osservatore di stimoli, non come agente che decide, agisce e modifica l’ambiente. Mancano anche, almeno per ora, una vera dimensione neuroevolutiva e una copertura clinica abbastanza ampia da sostenere conclusioni generali sulla popolazione umana.

Accanto ai limiti scientifici discussi dal paper, il lavoro solleva anche questioni etiche più ampie, come neurodati, consenso e rischio di sovrainterpretazione, che però rappresentano soprattutto una riflessione di contesto. Man mano che i modelli diventano più efficaci nel predire pattern cerebrali, cresce l’urgenza di definire meglio che cosa significhi proteggere i neurodati. La questione non riguarda solo la privacy in senso tradizionale, ma anche l’autonomia, il consenso informato e il rischio di sovrainterpretazione commerciale o mediatica. Proprio per questo TRIBE v2 va preso sul serio senza mitizzarlo. È un progetto importante perché rende più concreta l’idea di una neuroscienza in silico. Ma resta un modello di encoding, non una scorciatoia per comprendere integralmente la mente umana.

Perché TRIBE v2 resta un passaggio da seguire

La ragione per cui TRIBE v2 merita attenzione è semplice. Mostra che i foundation model stanno uscendo dal solo perimetro generativo e diventano strumenti per descrivere sistemi complessi del mondo reale, incluso il cervello. Il lavoro di Meta non chiude la questione, anzi la apre. Fa vedere che una parte dell’organizzazione funzionale del cervello può essere modellata con più ampiezza, più dettaglio e più capacità di generalizzazione rispetto a pochi anni fa. E costringe, allo stesso tempo, a usare parole più precise. Non siamo davanti alla lettura della mente. Siamo davanti a un nuovo tipo di infrastruttura scientifica, ancora imperfetta, ma abbastanza matura da cambiare il modo in cui si progettano alcuni esperimenti e si formulano alcune ipotesi.