Claude Mythos, il modello che sposta il confine della cybersecurity

Claude Mythos
Tabella dei Contenuti

A cura di Giovanni Masi

Certe tecnologie arrivano sul mercato con un lancio globale, una demo ben confezionata e una lista di funzioni. Claude Mythos no. Il nuovo modello di Anthropic è entrato nel dibattito pubblico con il gesto opposto, quello che di solito segnala una soglia critica: non l’apertura, ma il contenimento. L’azienda ha scelto di non renderlo disponibile al pubblico e di limitarne l’uso a un gruppo ristretto di partner industriali e operatori della sicurezza.

È una decisione che racconta molto più del modello stesso. Dice che l’industria dell’AI comincia a trattare alcuni sistemi non come semplici prodotti software, ma come capacità strategiche ad alto impatto, da governare con criteri che ricordano sempre di più la sicurezza nazionale e la gestione delle infrastrutture critiche.

Nel caso di Claude Mythos, la ragione dichiarata è netta. Secondo Anthropic, il modello ha raggiunto un livello di competenza tale da saper individuare e sfruttare vulnerabilità in modo autonomo su larga scala, con risultati che superano quelli dei modelli precedenti e, in alcuni compiti, di gran parte degli specialisti umani. L’annuncio è importante non solo per ciò che promette, ma per la torsione culturale che introduce. Fin qui il settore ha ragionato soprattutto in termini di chatbot, agenti produttivi e assistenti al coding. Con Mythos, il baricentro si sposta verso un’altra domanda, molto meno comoda: cosa succede quando un modello generalista diventa anche uno strumento credibile di ricerca offensiva in cybersicurezza?

Un modello che non viene lanciato, viene contenuto

Anthropic ha presentato Claude Mythos Preview insieme a Project Glasswing, iniziativa che riunisce tra gli altri Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks. Il perimetro non è casuale. L’idea è far usare il modello a soggetti che sviluppano o mantengono software critico, così da trovare e correggere vulnerabilità prima che strumenti con capacità analoghe diventino comuni anche presso attori ostili. Oltre ai partner di lancio, l’azienda ha esteso l’accesso a più di quaranta ulteriori organizzazioni attive nell’infrastruttura software e ha annunciato fino a 100 milioni di dollari in crediti d’uso, insieme a donazioni dirette a organizzazioni che lavorano sulla sicurezza dell’open source.

La formula scelta è rivelatrice. Mythos non è presentato come un prodotto consumer né come una normale API in self service. Nei documenti ufficiali viene descritto come research preview a invito, accessibile solo in contesti difensivi e con barriere d’accesso molto più strette del normale. Anche questo segna un precedente. Finora le aziende dell’AI hanno discusso di sicurezza soprattutto in termini di policy d’uso e filtri. Qui, invece, il controllo passa dalla moderazione dei contenuti alla selezione dei destinatari, quasi a riconoscere che per alcune classi di modelli il problema non è soltanto ciò che dicono, ma ciò che possono fare una volta collegati a strumenti, codice e ambienti operativi.

Perché Anthropic considera Mythos un salto di fase

La parte più delicata dell’annuncio è naturalmente quella tecnica. Anthropic sostiene che Mythos Preview sia in grado di identificare e poi sfruttare vulnerabilità zero-day in tutti i principali sistemi operativi e nei maggiori browser, almeno nei test condotti internamente. Tra gli esempi resi pubblici compare un bug di OpenBSD rimasto latente per ventisette anni, oltre a una vulnerabilità di FreeBSD che il modello avrebbe trasformato autonomamente in un exploit di remote code execution capace di ottenere accesso root.

Nelle valutazioni pubblicate dal team di ricerca, Mythos avrebbe inoltre convertito vulnerabilità in exploit funzionanti 181 volte in un benchmark interno collegato a Firefox, mentre i modelli precedenti erano quasi fermi. Nella batteria OSS-Fuzz, sempre secondo Anthropic, ha raggiunto 595 crash ai livelli 1 e 2 e dieci casi di pieno controllo del flusso su target completamente patchati.

Questi numeri vanno letti con attenzione. Sono dati forniti dall’azienda e non equivalgono a una validazione indipendente dell’intero quadro. Molti dettagli tecnici restano deliberatamente omessi per ragioni di sicurezza, perché la maggior parte delle vulnerabilità citate non era ancora stata corretta al momento della pubblicazione. Il report tecnico aggiunge però un elemento importante, perché descrive con una certa precisione il metodo di lavoro. Anthropic spiega di aver usato un semplice scaffold agentico in container isolati, con Claude Code incaricato di leggere il codice, formulare ipotesi, eseguire il software, verificare i sospetti e produrre alla fine un bug report con proof of concept e passi di riproduzione.

Per aumentare la varietà dei risultati, gli agenti vengono indirizzati verso file diversi e ordinati per probabilità di contenere vulnerabilità interessanti, mentre un passaggio finale separato serve a confermare che il bug trovato sia reale e rilevante.

L’azienda ha anche pubblicato impegni crittografici in forma di hash SHA-3 per alcune vulnerabilità non ancora divulgabili, promettendo di sostituirli con documentazione completa dopo la patch. Non è una prova esterna in senso stretto, ma è un tentativo di accountability che rafforza la credibilità del quadro. Il materiale divulgato è comunque sufficiente a fissare un punto. Non si parla più soltanto di modelli utili a scrivere codice o a trovare bug in modo assistito. Si parla di sistemi che concatenano discovery, analisi e sfruttamento con un grado di autonomia che cambia la scala del problema.

Il salto non riguarda solo la sicurezza offensiva. Nella documentazione ufficiale Mythos mostra anche risultati molto alti su benchmark più generali di coding e ragionamento, con vantaggi marcati rispetto a Claude Opus 4.6 su SWE-bench Pro, SWE-bench Verified, Terminal-Bench e OSWorld-Verified. In altre parole, la sua pericolosità cyber non deriva da un addestramento specializzato da “arma digitale”, ma dall’emersione di capacità trasversali più forti in codice, pianificazione e autonomia operativa. Il report tecnico aggiunge che queste competenze sembrano trasferirsi anche al software closed source, dove Mythos si sarebbe mostrato efficace nel reverse engineering di binari stripped e nella costruzione di exploit su browser, sistemi operativi e perfino firmware.

Anche qui i dettagli restano in gran parte riservati, ma il segnale è rilevante, perché suggerisce che il salto non riguarda soltanto repository aperti e ambienti facilmente ispezionabili. È forse questo l’aspetto più istruttivo dell’intera vicenda. Le capacità dual use non sembrano arrivare da moduli separati, ma dal semplice fatto che i modelli generalisti stanno diventando molto più efficaci nel manipolare ambienti software reali.

Il paradosso di un modello più allineato ma più rischioso

Uno dei passaggi più interessanti dei documenti di Anthropic è anche uno dei più controintuitivi. Nel rapporto sul rischio di allineamento, l’azienda afferma che Mythos appare il modello più allineato che abbia rilasciato finora. Nello stesso tempo, aggiunge che è anche quello che comporta il rischio di allineamento più elevato tra quelli pubblicati. La contraddizione è solo apparente. Il senso è che un sistema più capace, più autonomo e più spesso impiegato con minore supervisione può generare danni più grandi anche se, in media, si comporta meglio dei predecessori.

Il rapporto cita inoltre episodi osservati nelle versioni iniziali del modello, nelle quali Mythos avrebbe talvolta adottato misure eccessive per completare compiti difficili, e in rari casi avrebbe provato a occultarle. In altri materiali Anthropic riferisce anche un test in cui il modello, operando in un ambiente sandbox, è riuscito a costruire un exploit multi-step per uscire dai limiti previsti e ottenere accesso più ampio alla rete. Non è la prova di una volontà autonoma nel senso fantascientifico del termine. È però un segnale concreto di quanto la combinazione tra competenze di coding, perseveranza agentica e accesso agli strumenti possa mettere in crisi salvaguardie pensate per modelli meno competenti.

Questo cambia il vocabolario della sicurezza dei modelli. Non basta più chiedersi se un sistema risponde a richieste vietate. Occorre domandarsi quanto sappia eludere vincoli, aggirare frizioni operative e completare catene complesse di azioni quando viene orientato verso un obiettivo tecnico. In questo senso Mythos è meno interessante come singolo prodotto e più come indicatore di una nuova classe di rischio.

Project Glasswing come risposta industriale e politica

La risposta di Anthropic è Project Glasswing, che va letto insieme come programma di difesa, esperimento di governance e prova generale di un nuovo modello di distribuzione. L’azienda sostiene che, nel lungo periodo, strumenti di questo tipo favoriranno i difensori più degli attaccanti, un po’ come accaduto con il fuzzing e con altre tecniche automatiche di analisi. Nel breve periodo, però, ammette che il vantaggio potrebbe essere opposto se i modelli venissero distribuiti senza cautele. Da qui la scelta di dare un “vantaggio iniziale” a chi presidia software di base, sistemi enterprise e infrastrutture condivise.

La mossa ha anche un significato politico. Se un laboratorio privato arriva a ritenere che un modello non debba essere reso disponibile in forma generale, il tema non riguarda più soltanto la concorrenza tra aziende dell’AI. Riguarda il rapporto tra imprese, governi e operatori dell’infrastruttura digitale. Diverse fonti indipendenti hanno sottolineato proprio questo passaggio, osservando che il rilascio controllato di Mythos potrebbe diventare il prototipo di come verranno gestiti altri modelli frontier con capacità sensibili. È una prospettiva plausibile. D’altra parte, apre interrogativi non banali su chi deciderà l’accesso, secondo quali standard di auditing e con quale trasparenza verso il resto dell’ecosistema.

La vera questione non è Mythos, ma il tempo che resta per adattarsi

Il punto più rilevante, alla fine, non è se Anthropic stia enfatizzando alcuni risultati o se Project Glasswing diventerà un servizio redditizio. La questione centrale è che l’intervallo tra scoperta di una vulnerabilità, costruzione dell’exploit e impiego operativo tende a comprimersi drasticamente quando questi passaggi vengono automatizzati da modelli agentici molto forti. Il report dedica un passaggio particolarmente eloquente agli N-day, cioè alle vulnerabilità già note ma non ancora corrette in modo diffuso.

Anthropic riferisce di aver fornito al modello 100 CVE e vulnerabilità del kernel Linux emerse tra il 2024 e il 2025, e sostiene che Mythos ne abbia selezionate 40 come potenzialmente sfruttabili, riuscendo poi in più della metà dei tentativi di sviluppo di exploit di privilege escalation. Il significato, al di là del numero preciso, è difficile da ignorare.

Attività che finora richiedevano giorni o settimane di lavoro esperto, come partire da un identificativo CVE e da un commit Git per arrivare a un exploit funzionante, potrebbero diventare molto più rapide e sistematiche. Anthropic insiste su questo aspetto e diversi osservatori esterni hanno ripreso la stessa preoccupazione. Se il costo cognitivo dell’exploitation scende, molte difese basate sull’attrito diventano meno robuste. Procedure lunghe, reverse engineering paziente, concatenazioni che un tempo richiedevano giorni o settimane di lavoro altamente specializzato possono entrare nel raggio d’azione di sistemi che iterano per ore, senza stanchezza e con una memoria tecnica ormai competitiva.

Per il mondo della cybersecurity, questo implica una doppia trasformazione. Da un lato serviranno più automazione difensiva, più scanning continuo, più verifica del software a monte della distribuzione. Dall’altro, cambierà la gestione stessa del rischio nei laboratori di frontiera. Le system card, i red team e i filtri conversazionali restano necessari, ma potrebbero non bastare quando i modelli smettono di essere soltanto generatori di testo e diventano operatori tecnici credibili.

Claude Mythos segna proprio questa soglia. Non tanto perché annunci l’AI apocalittica, formula che aggiunge poco, ma perché costringe il settore a riconoscere che l’era dei modelli capaci di fare ricerca offensiva utile non è più un’ipotesi lontana. È una transizione già iniziata, e il vantaggio competitivo andrà a chi saprà organizzare prima la difesa.

Bibliografia

Anthropic, Project Glasswing: Securing critical software for the AI era

Anthropic Frontier Red Team, Assessing Claude Mythos Preview’s cybersecurity capabilities

Anthropic, Alignment Risk Update: Claude Mythos Preview

Anthropic, Model System Cards

Anthropic Docs, Models overview

Anthropic Docs, Pricing

The Verge, A new Anthropic model found security problems “in every major operating system and web browser”

Axios, Behind the Curtain: AI’s scary phase

The Guardian, Anthropic keeps latest AI tool out of public’s hands for fear of enabling widespread hacking

Condividi Articolo

Leggi anche

DEI CONSACRATI ALLA SCUOLA DEL WEB

In collaborazione con il Centro Comunicazioni Sociali della Pontificia Università Urbaniana, la UISG ha ideato un corso di communicazione intitolato “Come fare uno sito web?”.