Gemma 4 di Google: il modello AI multimodale open source che sfida i giganti

Aprile 8, 2026
Francesco Evangelisti

Google lancia Gemma 4, modello AI multimodale open source Apache 2.0. Benchmark AIME 2026 all'89,2%, quattro varianti, audio video immagini: analisi tecnica completa.

Un modello da 31 miliardi di parametri che risolve l’89,2% dei problemi di matematica avanzata dell’AIME 2026, gira in locale su un MacBook, supporta immagini, audio e video, ed è distribuito con licenza Apache 2.0 completamente libera. Questo è Gemma 4, l’ultimo modello di Google rilasciato il 2 aprile 2026. Non è un comunicato stampa: è un cambio di scenario per chiunque lavori con l’intelligenza artificiale.

Quattro modelli, un’architettura radicalmente nuova

Gemma 4 non è un singolo modello ma una famiglia di quattro varianti, ognuna progettata per un contesto specifico. Il Gemma 4 E2B ha 2,3 miliardi di parametri effettivi (5,1 miliardi incluse le embedding) e supporta testo, immagini e audio con una finestra di contesto da 128.000 token. Il Gemma 4 E4B scala a 4,5 miliardi di parametri effettivi (8 miliardi totali) con le stesse capacità multimodali. Per i carichi di lavoro più pesanti esistono il Gemma 4 31B — un denso da 31 miliardi che estende il contesto a 256.000 token con supporto video — e il Gemma 4 26B A4B, un’architettura MoE (Mixture of Experts) che attiva solo 4 miliardi di parametri durante l’inferenza, pur avendo 26 miliardi di parametri totali.

Quest’ultima variante è quella che colpisce di più: ottiene l’88,3% su AIME 2026 consumando le risorse computazionali di un modello da 4 miliardi. Come riportato da Hugging Face nel blog di presentazione, si tratta di “un punto di Pareto frontier tra efficienza e performance”. In altri termini, nessun altro modello di quelle dimensioni (attive) ottiene risultati comparabili.

Multimodalità nativa: immagini, audio e video di serie

La vera novità di Gemma 4 rispetto alla generazione precedente è la multimodalità integrata fin dall’architettura. I modelli piccoli (E2B ed E4B) gestiscono testo, immagini e audio attraverso un encoder audio di tipo USM-style conformer — lo stesso usato come base in Gemma-3n. I modelli grandi (31B e 26B A4B) scambiano il supporto audio con quello video, raggiungendo capacità di comprensione multimediale che fino a pochi mesi fa erano esclusive di API proprietarie.

L’encoder visivo utilizza posizioni 2D apprese e RoPE multidimensionale per preservare i rapporti di aspetto delle immagini originali. Il budget di token per le immagini è configurabile tra 70 e 1.120 token, permettendo di bilanciare qualità e velocità di inferenza. In pratica, Gemma 4 può descrivere un’interfaccia utente da uno screenshot, estrarre dati da tabelle in PDF, rispondere a domande su clip video, trascrivere e analizzare contenuti audio — tutto nello stesso modello, senza orchestrare servizi separati.

Benchmark da primato: i numeri che contano davvero

I benchmark sono l’unico linguaggio oggettivo in questo settore. Secondo i dati pubblicati da Google e verificati da Hugging Face, il Gemma 4 31B ottiene l’89,2% su AIME 2026, il principale test di matematica olimpica usato per valutare il ragionamento avanzato. Il Gemma 4 26B A4B si ferma all’88,3% — praticamente identico con 27 miliardi di parametri in meno attivi.

Sul benchmark GPQA Diamond, che misura la capacità di rispondere a domande di ricerca di livello dottorale in fisica, chimica e biologia, il 31B segna l’84,3% e il 26B A4B l’82,3%. Sono numeri che fino a sei mesi fa erano associati esclusivamente a modelli da centinaia di miliardi di parametri accessibili solo via API.

Sul fronte del codice, il 31B raggiunge un ELO Codeforces di 2150 — una metrica che posiziona il modello tra i programmatori umani più abili a livello competitivo — e l’80% su LiveCodeBench v6. Il confronto con Gemma 3 27B è impietoso: il predecessore otteneva appena il 29,1% su questo benchmark e un ELO Codeforces di soli 110 punti. Un salto generazionale misurabile.

Architettura: le innovazioni tecniche sotto il cofano

Gemma 4 introduce diverse innovazioni architetturali che spiegano i suoi risultati. La prima è l’uso di attention layers alternati: sliding-window locali (con finestre da 512 o 1.024 token a seconda della dimensione del modello) si alternano ad attenzione globale full-context, riducendo il costo computazionale senza sacrificare la capacità di ragionamento su contesti lunghi.

La seconda innovazione è il Per-Layer Embedding (PLE), presente nei modelli piccoli: ogni token riceve un vettore dedicato per ogni layer del transformer, combinando informazioni sull’identità del token (embedding lookup) con proiezioni apprese dal contesto. Per input multimodali, questo sistema usa un pad token ID come segnale neutro, permettendo una specializzazione per layer a costo parametrico contenuto.

La terza è la Shared KV Cache: gli ultimi strati del modello non calcolano proprie proiezioni di chiave e valore ma riutilizzano quelle dell’ultimo strato non condiviso dello stesso tipo di attenzione. Il risultato è una riduzione significativa di compute e memoria per l’inferenza su contesti lunghi, con impatto minimo sulla qualità. Per chi esegue modelli in locale, questo si traduce in requisiti di VRAM sensibilmente inferiori rispetto ai modelli concorrenti di dimensioni analoghe.

Open source vero: Apache 2.0 e l’ecosistema pronto dal giorno uno

La parola “open source” in ambito AI è spesso abusata. Molti modelli vengono rilasciati con pesi accessibili ma licenze che ne limitano l’uso commerciale, il fine-tuning o la ridistribuzione. Gemma 4 usa la licenza Apache 2.0: uso commerciale libero, modifica libera, ridistribuzione libera. Nessuna restrizione sull’utente finale, nessuna clausola sull’output generato.

Il supporto ecosistema al lancio è altrettanto solido. Come riportato da Hugging Face, Gemma 4 è disponibile il giorno uno su transformers (con la nuova classe AutoModelForMultimodalLM), llama.cpp con quantizzazioni GGUF pronte, MLX per Apple Silicon attraverso la libreria mlx-vlm con TurboQuant (che riduce il consumo di memoria di 4 volte), transformers.js per inferenza nel browser via WebGPU, e ONNX per dispositivi edge. I pesi quantizzati a 4 e 8 bit sono disponibili immediatamente, permettendo di eseguire il modello da 31 miliardi su hardware consumer.

Per il fine-tuning, le opzioni includono TRL con supporto multimodale e integrazione Vertex AI, Unsloth Studio con interfaccia grafica, e PEFT via transformers per approcci a efficienza parametrica. In pratica, chiunque abbia una GPU consumer può addestrare una versione specializzata di Gemma 4 per il proprio dominio applicativo.

Dove si posiziona rispetto alla concorrenza

Il panorama dei modelli open source di qualità è cresciuto enormemente negli ultimi 12 mesi. Llama 4 di Meta, Qwen 2.5 di Alibaba, Mistral Large e i modelli di DeepSeek hanno tutti alzato l’asticella. Gemma 4 si inserisce in questo contesto con una proposta chiara: il miglior rapporto performance-parametri-attivi nel segmento open source, con multimodalità nativa su tutti i modelli della famiglia.

Il confronto più diretto è con Llama 4 Scout, il modello MoE di Meta lanciato in marzo. Entrambi usano architetture MoE con un numero limitato di parametri attivi, entrambi supportano contesti molto lunghi, entrambi sono Apache 2.0. Gemma 4 26B A4B sembra avere un vantaggio su ragionamento matematico e scientifico, mentre Llama 4 mantiene punti di forza nella comprensione del linguaggio naturale e nel multilingual. Non c’è un vincitore assoluto: c’è una scelta da fare in base al caso d’uso.

La mia lettura

Quello che mi colpisce di Gemma 4 non è solo la qualità tecnica — che è genuinamente impressionante — ma la strategia che ci sta dietro. Google sta usando i modelli open source per fare qualcosa di preciso: abbassare il costo di adozione di Google Cloud e Vertex AI. Se usi Gemma 4 in locale per sviluppare e testare, la transizione alla produzione su infrastruttura Google diventa naturale. È un modello di business che Meta ha adottato con Llama, e che ora Google replica con una famiglia di modelli tecnicamente superiore.

Il vero banco di prova sarà vedere quanti sviluppatori e aziende costruiranno prodotti basati su Gemma 4 nei prossimi sei mesi. L’adozione dell’ecosistema — integrazioni, plugin, casi d’uso verticali — è ciò che trasforma un buon modello in uno standard de facto. Gemma 3 non aveva raggiunto quella massa critica. Gemma 4, con questi benchmark e con il supporto immediato di tutti i principali framework, ha le carte per farcela.

C’è però una domanda che mi faccio ogni volta che un’azienda Big Tech rilascia un modello “open source” di questa potenza: fino a quando? La storia recente — OpenAI che chiude i pesi, Meta che aggiunge restrizioni tra una versione e l’altra — suggerisce che la vera apertura sia contingente alla convenienza strategica del momento. Apache 2.0 è Apache 2.0, certo, ma i modelli futuri potrebbero seguire percorsi diversi. Per ora godiamoci Gemma 4 per quello che è: probabilmente il modello open source più capace mai rilasciato, a qualsiasi dimensione.

Condividi Articolo