Torna al Blog

La pseudonimizzazione non è più un rifugio sicuro. Gli LLM cambiano le regole del gioco.

Un nuovo studio firmato da ricercatori del Politecnico federale di Zurigo (ETH Zurich) del programma Machine Learning Alignment Theory Scholars (MATS) e di Anthropic — pubblicato su arXiv con il titolo "Large-Scale Online Deanonymization with LLMs" — e disponibile al seguente link mette in evidenza il rischio di uno dei pilastri della protezione dei dati personali online: l'assunzione che la pseudonimia, combinata con la dispersione dei dati in rete, garantisca un'anonimità di fatto.

Pseudonimizzazione e LLM

La scoperta si basa sui risultati di esperimenti che correlano individui specifici con account o post su più di una piattaforma social. Il tasso di successo è nettamente superiore rispetto ai lavori classici di de-anonimizzazione, che si affidavano a ricercatori umani impegnati nella costruzione di dataset strutturati idonei al matching algoritmico, o al lavoro manuale di investigatori specializzati.

Il team ha costruito una pipeline automatizzata in quattro fasi — denominata ESRC (Extract, Search, Reason, Calibrate) — in grado di abbinare account pseudonimi a profili reali con una precisione fino al 90% e un tasso di recall fino al 68%.

Nel test principale, il sistema ha correttamente collegato il 67% degli utenti di Hacker News ai loro profili LinkedIn reali, partendo da un pool di 89.000 candidati, dopo aver rimosso tutti gli identificatori diretti.

IL COSTO: DA 1 A 4 DOLLARI PER BERSAGLIO

L'intera operazione per il test è costata meno di 2.000 dollari, con un costo per account identificato compreso tra 1,41 e 5,64 dollari (circa 1–4 USD) utilizzando le API commerciali standard.

Gli attacchi di de-anonimizzazione di efficacia comparabile richiedevano in precedenza dataset strutturati idonei al matching algoritmico, vulnerabilità tecniche sfruttabili, o un significativo lavoro manuale da parte di investigatori specializzati riservato a obiettivi ad alto valore.

Proiettando i risultati a scala internet, il sistema raggiunge un recall del 35% con una precisione del 90% su un pool di un milione di utenti.

Un dataset parzialmente anonimizzato di Anthropic denominato Interviewer — pubblicato nel dicembre dell'anno precedente — è stato utilizzato per ulteriori test. In questo caso, la pipeline è riuscita a risalire all'identità di 9 dei 33 scienziati anonimizzati, tratti dalle 1.250 interviste contenute nel dataset.

I modelli utilizzati nella pipeline erano Grok 4.1 Fast di xAI, GPT-5.2 di OpenAI, Gemini 3 Flash e Gemini 3 Pro di Google. Nessun modello Claude — come Sonnet o Opus — è stato impiegato nei test, nonostante il ricercatore Anthropic Nicholas Carlini abbia agito come consulente del paper.

I GUARDRAIL DI SICUREZZA DEGLI LLM NON SONO UNA DIFESA AFFIDABILE

I ricercatori hanno testato i guardrail di sicurezza degli LLM commerciali durante i loro esperimenti e li hanno trovati insufficienti a prevenire la de-anonimizzazione. In alcuni scenari, i modelli hanno rifiutato di collaborare, ma piccole modifiche ai prompt hanno aggirato ogni volta tali rifiuti.

La pipeline ESRC frammenta inoltre l'attacco in passaggi come il riassunto di profili, il calcolo di embedding e la classificazione dei candidati. Questo approccio passo-passo produce una sequenza che assomiglia a un utilizzo normale e innocuo, rendendo il rilevamento automatico degli abusi poco affidabile.

I modelli open source estendono la minaccia oltre l'accesso alle API commerciali, affermano i ricercatori, poiché i guardrail di sicurezza possono essere rimossi e non esiste alcun monitoraggio dell'utilizzo nei deployment open source.

I ricercatori aggiungono: aumentare lo sforzo di ragionamento del modello migliora le prestazioni di de-anonimizzazione, il che implica che man mano che i modelli frontier diventano più capaci, l'attacco potrebbe diventare ancora più efficace per default.

CHI È A RISCHIO E SCENARI D'USO MALEVOLO

Il paper indica scenari realistici di abuso: la sorveglianza di giornalisti, dissidenti e attivisti; la pubblicità iper-personalizzata che collega post anonimi su forum a profili cliente; il social engineering personalizzato su scala; il de-anonimato di dipendenti che si affidano allo pseudonimato per protezione.

Il ricercatore principale Daniel Paleka ha dichiarato che lo ha sorpreso "quanto poca informazione sia necessaria per collegare due account".

Il co-ricercatore Simon Lermen ha scritto in un post su Substack: "Chiediti: un team di investigatori intelligenti riuscirebbe a scoprire chi sei dai tuoi post? Se sì, gli agenti LLM possono probabilmente fare lo stesso, e il costo per farlo è destinato solo a scendere."

Paleka ha aggiunto che la capacità di de-anonimizzazione scala in modo prevedibile con i miglioramenti dei modelli, sebbene abbia notato che migliori guardrail di sicurezza potrebbero modificare questa traiettoria: "Se i produttori di modelli migliorano i guardrail per bloccare la de-anonimizzazione, i modelli potrebbero rifiutarsi di de-anonimizzare di più, e quindi la capacità complessiva di de-anonimizzazione sarà inferiore."

LE MITIGAZIONI PROPOSTE

I ricercatori propongono come mitigazioni più pratiche nel breve termine: limiti di frequenza sull'accesso ai dati via API, rilevamento robusto dello scraping automatizzato, e restrizioni all'esportazione di dati in bulk — collocando il principale onere di risposta sulle piattaforme piuttosto che sui provider di AI.

Sottolineano anche misure pratiche per i singoli utenti: limitare ciò che si pubblica pubblicamente ed eliminare regolarmente i contenuti vecchi per ridurre gli identificatori residui.

I ricercatori si sono astenuti dal rilasciare il codice della pipeline o i dataset elaborati, citando il rischio che farlo abbasserebbe ulteriormente la soglia d'accesso per gli attori malevoli. Il paper preprint è stato pubblicato su arXiv (arXiv:2602.16800) ed è in attesa di peer review.

Il problema normativo: il GDPR si regge su assunzioni che l'AI sta scardinando

Il Considerando 26 del GDPR ci dice tra l'altro, nella sostanza, che i dati personali non sono considerati tali se il processo di re-identificazione «richiederebbe uno sforzo sproporzionato e irragionevole». Questa nozione — che la dottrina anglosassone chiama practical obscurity — è esattamente ciò che lo studio mette in crisi.

La "practical obscurity" — l'idea che post pseudonimi e dispersi fossero al sicuro perché collegarli era troppo oneroso — potrebbe non reggere più.

Le conseguenze per la compliance sono immediate:

  • Art. 4(5)GDPR — Pseudonimizzazione. Chi usa la pseudonimizzazione come misura di sicurezza ai sensi dell'art. 32 GDPR deve rivalutare se tale misura sia ancora adeguata al rischio concreto. Una pipeline LLM da pochi dollari a target è ormai accessibile a chiunque.
  • Art. 25GDPR — Privacy by Design. La progettazione di sistemi che si basano sulla pseudonimizzazione come principale salvaguardia deve tenere conto della nuova minaccia. Il rischio residuo cambia.
  • Art. 35GDPR — DPIA. Qualsiasi trattamento che implichi raccolta di dati pubblici, profilazione o ricerca su larga scala deve aggiornare la valutazione d'impatto incorporando questa categoria di rischio. Gli scenari di attacco ora includono strumenti LLM agentic a basso costo.

Il rischio invisibile: la pipeline sembra innocua

Questa è forse la parte più insidiosa. La pipeline è composta da passaggi individualmente innocui: riassumere testi, generare embedding, classificare candidati e ragionare sui risultati. Nessuna singola componente appare intrinsecamente malevola, il che rende difficile il rilevamento attraverso salvaguardie convenzionali.

Tradotto: i sistemi di monitoraggio degli abusi — inclusi quelli delle piattaforme e dei provider di LLM — faticano a distinguere questo tipo di attacco dall'uso ordinario.

I ricercatori hanno testato i guardrail di sicurezza dei LLM commerciali e li hanno trovati insufficienti. In alcuni scenari i modelli si sono rifiutati di collaborare, ma piccole modifiche ai prompt hanno aggirato ogni volta i rifiuti.

Questo articolo ha finalità informative e non costituisce parere legale. Le posizioni espresse riflettono l'analisi di Tomato Blue RegTech. Per valutazioni specifiche, rivolgersi a un professionista qualificato. © 2026 Tomato Blue.

La pseudonimizzazione nella tua organizzazione è ancora adeguata?

Tomato Blue accompagna aziende e professionisti nella rivalutazione delle misure di protezione dati alla luce delle nuove minacce AI. Dalla DPIA aggiornata al privacy by design evoluto.

Contattaci