Studio del MIT: facile identificare gli individui con i metadati delle carte di credito

La sicurezza dei dati personali rappresenta un fattore sempre più critico per tutte quelle organizzazioni, il retail nel nostro caso, che si trovano a dover gestire un numero molto elevato di informazioni “delicate” come numeri delle carte di credito e password. Il retailer deve far fronte a due ben distinte esigenze: da un lato la necessità di garantire l’assoluta sicurezza dei dati e dall’altro la salvaguardia della privacy dei clienti.

Analizzati tre mesi di transazioni
Un nuovo interessante punto di vista su questo fronte arriva da un recente studio del Massachusetts Institute of Technology (MIT), pubblicato su Science, dal quale emerge come sia sorprendentemente facile identificare gli individui in base ai metadati delle carte di credito. L’analisi -effettuata dal team composto da Yves-Alexandre de Montjoye, Laura Radaelli, Vivek Kumar Singh e Alex “Sandy” Pentland- è stata condotta su tre mesi di transazioni di carte di credito, pari allo spending di 1,1 milioni di persone in 10mila negozi in un singolo Paese. Basandosi solamente su quattro tipologie di informazioni generiche –le date e le location di quattro acquisti- è possibile, sostengono i ricercatori, identificare il 90% delle persone.

Incrociare dati con fonti esterne
Quando invece sono state prese in considerazione informazioni meno granulari circa i prezzi degli acquisti, sono stati necessari solo tre data point per identificare una maggioranza anche più ampia nel gruppo di dati. Questo può significare che qualcuno che entra in possesso di solo tre dei vostri recenti scontrini –oppure una ricevuta, una vostra foto da Instagram ed un tweet su un telefono che avete appena comprato- avrebbe il 94% di possibilità di estrarre i dati della vostra carta di credito fra quelli di un milione di altre persone. Questo è vero, asseriscono i ricercatori, anche nei casi in cui nessuno nel data set sia identificato per nome, indirizzo, numero di carta di credito, o qualunque altra cosa che possiamo classificare come informazione personale.

Gli attacchi di correlazione
In sostanza, poiché ogni modello di spesa individuale è unico, i dati possiedono a loro volta una “unicità” molto alta. Ciò li rende maturi per quello che de Montjoye definisce “correlation attack”: per rivelare l’identità di una persona è sufficiente correlare i metadati con informazioni sulla persona provenienti da una fonte esterna.
Uno dei modi per proteggersi dagli attacchi di correlazione è di offuscare i dati modificando alcune variabili, ad esempio piuttosto che rivelare la data esatta o il prezzo di una transazione, la versione pubblica di un data set potrebbe indicare solo la settimana nella quale è avvenuta oppure il range di prezzo nel quale è rientrata. Questo espediente non ci metterebbe in salvo da un attacco di correlazione –specifica de Montjoye- ma eleverebbe comunque il numero di informazioni necessarie per de-anonimizzare ogni persona all’equivalente di una dozzina di scontrini/ricevute.

La validità dei Big Data
Nonostante queste risultanze, de Montjoye si dice assolutamente convinto sulla potenzialità positiva dei Big Data; occorre però essere consapevoli del rischio della re-identificazione. In un altro studio, il ricercatore ha sviluppato un sistema che potrebbe permettere alle persone di immagazzinare i dati generati dai loro device mobili su server sicuri di loro scelta. In questo modo, i ricercatori alla caccia di modelli utili per l’aggregazione dei dati potrebbero inviare interrogazioni attraverso il sistema, che restituirebbe solo dati pertinenti, come ad esempio la spesa media mensile in carburante in diversi periodi di tempo.

 

LASCIA UN COMMENTO

Inserisci il tuo commento
Inserisci il tuo nome