Problemi di sicurezza dell’intelligenza artificiale

Nel mio libro argomento contro l’enfasi posta a favore delle auto che si guidano da sole.

Ci sono cinque questioni a mio avviso principali per cui ritengo che per molto molto tempo ancora (a meno di contesti delimitati) potremo parlare di sistemi di assistenza alla guida, ma con responsabilità del guidatore :

La prima è che alle persone piace guidare. Quindi ciò deve essere loro consentito.
La seconda è che in caso di incidente è difficile attribuire la reponsabilità (forse impossibile). Si sprecherebbero le cause tra chi dice è colpa del software, a chi dice è colpa del proprietario dell’auto che non ha fatto la manutenzione corretta, a chi dice è colpa dell’hardware, a chi dice è colpa del servizio cloud, a chi dice è stata colpa di un guidatore umano di una ltro mezzo, a chi dice è stato inevitabile. E’ probabile che in molti casi non sia possibile attribuire correttamente la responsabilità (vi sono troppe interfaccie tra i sottosistemi).
Il terzo problema e’ il problema del trolley : chi sacrifica l’auto in caso di incidente inevitabile ? il passante o il passeggero ? oggi la decisione è fatta ex post, caso per caso, con valutazione di un giudice. domani dovrebbe essere definita ex ante e da qui nasce la questtione.
Il quarto punto è : vi fidate del vostro computer ? siete “sicuri” ? e vi fidereste di un computer che pesa due tonnellate e va in giro in mezzo alle persone ? (su questo torno piu’ avanti)
Il quinto punto è che i sistemi sono basati su un modello della realtà che è quello attuale, ma una volta che vi inserisco i mezzi a guida autonoma pensati per andare nella realtà attuale, la realtà stessa cambia e non è più la stessa. Oggi a nessuno verrebbe in mente di stendere una striscia di carta igienica tra due semafori. Il primo che la vede, passa e la straccia. Domani, con auto che si guidano da sole, si potrebbero inventare minaccie falcimente risolvibili da un umano ma bloccanti per un’automa. (una sagoma appesa ad un lampione/albero, un adesivo o vernice spray su un cartello stradale, ecc.)

Un computer è molto adatto ad effettuare compiti ripetitivi e con l’intelligenza artificiale a fare anche compiti cognitivi ripetitivi. (si veda il mio articolo su infobot, il post con letture consigliate su AI e Machine Learning ed in particolare l’articolo sul problema semantico dell’espressione ‘Intelligenza artificiale’).

Ma un computer non è senziente e di fronte a situazioni inattese, non c’è nulla di meglio di un umano per affrontarle.

Le situazioni inattese possono essere anche distorsioni minime, percettivamente non rilevabili da un umano, ma sufficienti per fuorviare il computer.

Al riguardo questo articolo Intriguing properties of neural networks evidenzia che

we find that deep neural networks learn input-output mappings that are fairly discontinuous to a significant extend. We can cause the network to misclassify an image by applying a certain imperceptible perturbation, which is found by maximizing the network’s prediction error. In addition, the specific nature of these perturbations is not a random artifact of learning: the same perturbation can cause a different network, that was trained on a different subset of the dataset, to misclassify the same input.

…

For all the networks we studied (MNIST, QuocNet [10], AlexNet [9]), for each sample, we have always managed to generate very close, visually hard to distinguish, adversarial examples that are misclassified by the original network

Senza eccessiva difficoltà, si possono generare degli “esempi avversi” che portano la rete neurale ad una classificazione errata di ciò che deve riconoscere (immagine, suono, whatever). Questi sistemi funzionano ‘molto bene’, ovvero hanno un tasso di successo elevato in una situazione non avversa, ma sono vulnerabili.

Nell’articolo viene esposto un esperimento in cui all’immagine di sinistra, correttamente riconosciuta come un’auto, viene aggiunto il rumore di destra ottenendo l’immagine centrale percettivamente indistinguibile, ma che il sistema non riconosce più come un’auto.

In Explaining and Harnessing Adversarial Examples c’è un altro esempio divertente:

Il panda di sinistra, aggiunto il rumore al centro, produce l’immagine di destra che viene riconosciuta (oltre il 99% di confidenza) come una scimmia.

Queste sono immagini insignificanti per un umano ma che un sistema “riconosce” come descritto, con una confidenza oltre il 99%. L’articolo è Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images.

Adversarial examples in the physical world dice che…

Adversarial examples pose security concerns because they could be used to perform an attack on machine learning systems, even if the adversary has no access to the underlying model. Up to now, all previous work have assumed a threat model in which the adversary can feed data directly into the machine learning classifier. This is not always the case for systems operating in the physical world, for example those which are using signals from cameras and other sensors as an input. This paper shows that even in such physical world scenarios, machine learning systems are vulnerable to adversarial examples. We demonstrate this by feeding adversarial images obtained from cell-phone camera to an ImageNet Inception classifier and measuring the classification accuracy of the system. We find that a large fraction of adversarial examples are classified incorrectly even when perceived through the camera

In Practical Black-Box Attacks against Machine Learning gli autori dicono

…Potential attacks include having malicious content like malware identified as legitimate or controlling vehicle behavior. Yet, all existing adversarial example attacks require knowledge of either the model internals or its training data. We introduce the first practical demonstration of an attacker controlling a remotely hosted DNN with no such knowledge…. We demonstrate the general applicability of our strategy to many ML techniques by conducting the same attack against models hosted by Amazon and Google, using logistic regression substitutes. They yield adversarial examples misclassified by Amazon and Google at rates of 96.19% and 88.94%. We also find that this black-box attack strategy is capable of evading defense strategies previously found to make adversarial example crafting harder.

questo è un esempio di una partita a pong, giocata contro un computer (dove si vede che non sbaglia mai) e contro un computer inserendo il rumore coome si vede nell’esempio di destra. e si vede come invece il risultato si riequilibra…

(Adversarial Attacks on Neural Network Policies)

Quando si pensa in un imminente futuro di affidarsi a sistemi automatici senza decisione umana, si deve inoltre tenere conto degli effetti del teorema di Bayes, come spiego qui: Di riconoscimento facciale, terrorismo e reverendo Bayes.

Non voglio con questo dare l’impresisone che sia banale fregare i sistemi, ma solo evidenziare che i problemi di sicurezza ci sono, come in ogni sistema informatico; ci sono vulnerabilità; da queste nascono tecniche per mitigarle e da queste la ricerca di nuovi exploit e via cosi’, in un confronto perenne tra scudo e spada, come è sempre stato.

If you like this post, please consider sharing it.

Leave a Comment Cancel Reply