Antiterrorismo e datamining
Pubblichiamo un altro articolo di Schneier da cryptogram, estremamente attuale ed interessante:
Nel mondo post-11 settembre si presta molta attenzione a unire i punti. Molti credono che il data mining sia la sfera di cristallo che ci permetterà di svelare future trame terroristiche. Ma anche nelle proiezioni più sfrenatamente ottimistiche, il data mining non è sostenibile per tale scopo. Non stiamo barattando la privacy per la sicurezza; stiamo rinunciando alla privacy senza ottenere in cambio alcuna sicurezza.
Moltissime persone scoprirono per la prima volta in che cosa consiste il data mining nel novembre 2002, quando fece notizia un massiccio programma governativo di data mining chiamato Total Information Awareness. L’idea di fondo era audace quanto ripugnante: raccogliere quanti più dati possibile su chiunque, passarli al vaglio grazie a potentissimi calcolatori, e investigare quei pattern, quelle ricorrenze che potrebbero indicare trame terroristiche. Gli americani di ogni credo politico denunciarono il programma, e nel settembre 2003 il Congresso ne eliminò i fondi e ne chiuse gli uffici.
Ma Total Information Awareness non scomparve. Secondo The National Journal cambiò semplicemente nome e fu spostato all’interno del Dipartimento della Difesa.
Ciò non dovrebbe sorprendere. Nel maggio 2004, il General Accounting Office pubblicò un rapporto che elencava 122 diversi programmi di data mining varati dal governo federale che si servivano delle informazioni personali dei cittadini. Tale lista non comprendeva i programmi segreti, come le intercettazioni della NSA o programmi a livello statale come MATRIX.
La promessa del data mining è avvincente, e molti ne sono affascinati.
Ma tutto ciò è sbagliato. Non scopriremo trame terroristiche con sistemi come questo, e siamo in procinto di sprecare risorse preziose inseguendo falsi allarmi. Per capire perché, occorre osservare l’economia del sistema.
La sicurezza è sempre un compromesso, e perché un sistema sia valido, i vantaggi devono essere maggiori degli svantaggi. Un programma di data mining nazionale troverà una certa percentuale di attacchi reali, e una certa percentuale di falsi allarmi. Se i benefici derivanti dall’individuare e dal fermare quegli attacchi superano i costi (in denaro, in libertà, ecc.) allora il sistema è buono. In caso contrario, sarebbe preferibile spendere quei costi in altro modo.
Il data mining funziona al meglio quando si è alla ricerca di un ben determinato profilo, un numero ragionevole di attacchi ogni anno, e un costo contenuto per i falsi allarmi. La frode delle carte di credito è un caso di successo del data mining: tutte le compagnie di carte di credito esaminano i propri database delle transazioni in cerca di pattern di spesa che indichino la presenza di una carta di credito rubata. Molti ladri di carte di credito presentano un simile pattern: l’acquisto di costosi beni di lusso, l’acquisto di oggetti facilmente smerciabili tramite ricettazione, ecc.; e i sistemi di data mining in molti casi possono minimizzare le perdite bloccando la carta. In più, il costo dei falsi allarmi è rappresentato solo da una telefonata al titolare della carta, richiedendogli di verificare un paio di acquisti. E i titolari delle carte non sono nemmeno seccati da queste chiamate (purché avvengano di rado), per cui il costo si riduce semplicemente ad alcuni minuti di chiamata con un operatore.
Le trame terroristiche sono differenti. Non esiste un profilo ben determinato, e gli attacchi sono molto rari. Presi insieme, questi fatti significano che i sistemi di data mining non rileveranno alcun complotto terroristico a meno che non siano molto accurati, e che anche i sistemi più accurati saranno talmente inondati da falsi allarmi da diventare inutili.
Tutti i sistemi di data mining falliscono in due modi diversi: falsi positivi e falsi negativi. Un falso positivo è quando il sistema identifica un complotto terroristico che in realtà non è tale. Un falso negativo è quando al sistema sfugge un complotto terroristico vero e proprio. A seconda di come vengono sintonizzati gli algoritmi di rilevamento, l’errore può pendere da una parte o dall’altra: è possibile aumentare il numero di falsi positivi per assicurare una minore probabilità di mancare un vero complotto terroristico, oppure è possibile ridurre il numero di falsi positivi correndo il rischio di non individuare trame terroristiche.
Per ridurre entrambi quei numeri, è necessario un profilo ben definito.
Ed è questo il problema quando si è alle prese con il terrorismo. Col senno di poi, era davvero semplice unire i punti dell’11 settembre e puntare ai vari segnali d’allarme, ma è molto più difficile prima dell’evento. Di sicuro esistono segnali d’allarme comuni a molti complotti terroristici, ma ognuno è al tempo stesso unico. Più è possibile definire nei dettagli ciò che si sta cercando, migliori saranno i risultati. Il data mining alla caccia di trame terroristiche è destinato a essere approssimativo, e sarà difficile scoprire qualcosa di utile.
Il data mining è come cercare un ago in un pagliaio. Vi sono 900 milioni di carte di credito in circolazione negli Stati Uniti. Secondo lo FTC Identity Theft Survey Report del settembre 2003, ogni anno circa l’1% (10 milioni) delle carte di credito viene rubato e usato in modo fraudolento. Il terrorismo è diverso. Vi sono trilioni di connessioni fra persone ed eventi (cose che il sistema di data mining dovrà osservare) e pochissimi complotti. Questo livello di rarità rende inutili persino i sistemi di identificazione più accurati.
Facciamo due conti, essendo molto ottimisti. Supponiamo che il sistema presenti un tasso di falsi positivi di 1 su 100 (99% di accuratezza), e un tasso di falsi negativi di 1 su 1000 (99,9% di accuratezza).
Supponiamo di dover esaminare un trilione di possibili indicatori: si tratta all’incirca di 10 eventi (email, telefonate, acquisti, giri su Internet, ecc.) per persona negli Stati Uniti ogni giorno. Supponiamo inoltre che 10 di essi siano in effetti complotti terroristici.
Questo sistema irrealisticamente accurato genererà un miliardo di falsi allarmi per ogni complotto terroristico rilevato. Ogni giorno di ogni anno le forze dell’ordine dovranno investigare 27 milioni di potenziali complotti per poter arrivare a scoprire l’unico vero complotto terroristico ogni mese. Aumentiamo l’accuratezza dei falsi positivi a un assurdo 99,9999% e si dovranno affrontare ancora 2.750 falsi allarmi al giorno; ma questo farà aumentare inevitabilmente anche i falsi negativi, e sarà molto probabile mancare uno di quei dieci veri complotti terroristici.
Tutto ciò non è nulla di nuovo. In statistica viene chiamato base rate fallacy (fallacia della probabilità primaria) e si applica anche in altri contesti. Per esempio, anche test medici altamente accurati sono inutili come strumenti diagnostici se l’incidenza della malattia è rara nella popolazione generale. Anche gli attacchi terroristici sono rari, e qualsiasi test non porterà altro che a una scia infinita di falsi allarmi.
Questo è proprio il genere di cosa che abbiamo potuto vedere con il programma di intercettazione della NSA: il New York Times ha riportato che i computer emettevano migliaia di indicazioni ogni mese, e che ognuna di esse si è rivelata essere un falso allarme.
E il costo è stato smisurato: non solo il costo degli agenti dell’FBI persi in vicoli ciechi dietro a fantomatici indizi invece di occuparsi di cose che ci rendano davvero più sicuri, ma anche il costo delle libertà civili. Le libertà fondamentali che rendono il nostro paese oggetto d’invidia in tutto il mondo sono assai preziose, e non si dovrebbero gettare via così alla leggera.
Il data mining può funzionare. Aiuta Visa a contenere i costi delle frodi, così come aiuta Amazon.com a mostrarmi libri che potrebbero interessarmi e che potrei comprare, e Google a mostrarmi annunci pubblicitari che potrebbero incuriosirmi. Ma queste sono tutte istanze in cui il costo dei falsi positivi è basso (una chiamata di un operatore Visa, un annuncio non interessante) e riguardano sistemi che hanno valore anche se il numero di falsi negativi è elevato.
Scoprire complotti terroristici non è un problema che si presta a essere risolto dal data mining. È il tipico caso dell’ago nel pagliaio, e aumentare la pila di paglia non facilita la risoluzione del problema. Sarebbe molto meglio incaricare persone all’investigazione di potenziali trame terroristiche e permettere a queste persone di dirigere i computer, invece di assegnare l’incarico ai computer e lasciar decidere a loro chi bisognerebbe indagare.
Questo articolo è originariamente apparso su Wired.com. http ://www.wired.com/news/columns/0,70357-0.html