Que sont les attaques adverses contre les modèles d’IA et comment les arrêter ?
Les progrès de l’intelligence artificielle ont eu une influence considérable sur différents domaines. Cela a suscité l’inquiétude d’un grand nombre de passionnés de technologie. À mesure que ces technologies se développent dans différentes applications, elles peuvent entraîner une augmentation des attaques adverses.
Que sont les attaques adverses dans le domaine de l’intelligence artificielle ?
Les attaques adverses exploitent les spécifications et les vulnérabilités des modèles d’intelligence artificielle. Elles corrompent les données à partir desquelles les modèles d’IA ont appris et font en sorte que ces modèles produisent des résultats inexacts.
Imaginons qu’un farceur change les tuiles de scrabble disposées en ananas pour les transformer en « applepine ». Ce phénomène est similaire à ce qui se produit dans les attaques adverses.
Il y a quelques années, obtenir quelques réponses ou résultats incorrects d’un modèle d’IA était la norme. Aujourd’hui, c’est l’inverse : les imprécisions sont devenues l’exception, les utilisateurs d’IA s’attendant à des résultats quasi parfaits.
Lorsque ces modèles d’IA sont appliqués à des scénarios réels, les inexactitudes peuvent être fatales, rendant les attaques adverses très dangereuses. Par exemple, les autocollants apposés sur les panneaux de signalisation peuvent troubler une voiture autonome à conduite autonome et l’amener à s’engager dans la circulation ou à se heurter directement à un obstacle.
Types d’attaques adverses
Il existe différentes formes d’attaques adverses. Avec l’intégration croissante de l’IA dans les applications quotidiennes, ces attaques vont probablement s’aggraver et se complexifier.
Néanmoins, nous pouvons grossièrement classer les attaques adverses en deux types en fonction de ce que l’acteur de la menace sait du modèle d’IA.
1. Attaques de la boîte blanche
Dans les attaques de type « boîte blanche », les acteurs de la menace ont une connaissance complète du fonctionnement interne du modèle d’IA. Ils connaissent ses spécifications, ses données d’entraînement, ses techniques de traitement et ses paramètres. Cette connaissance leur permet d’élaborer une attaque contradictoire spécifiquement pour le modèle.
La première étape d’une attaque de type « boîte blanche » consiste à modifier les données d’entraînement originales, en les corrompant le moins possible. Les données modifiées seront toujours très similaires à l’original, mais suffisamment significatives pour que le modèle d’IA donne des résultats inexacts.
Ce n’est pas tout. Après l’attaque, l’acteur de la menace évalue l’efficacité du modèle en lui fournissant des exemples contradictoires – des données d’entrée déformées conçues pour amener le modèle à commettre des erreurs – et analyse les résultats. Plus le résultat est inexact, plus l’attaque est réussie.
2. Les attaques de la boîte noire
Contrairement aux attaques par boîte blanche, où l’acteur de la menace connaît le fonctionnement interne du modèle d’IA, les auteurs d’attaques par boîte noire n’ont aucune idée de la manière dont le modèle fonctionne. Ils se contentent d’observer le modèle depuis un angle mort, en surveillant ses valeurs d’entrée et de sortie.
La première étape d’une attaque par boîte noire consiste à sélectionner la cible d’entrée que le modèle d’IA veut classer. L’acteur de la menace crée ensuite une version malveillante de l’entrée en ajoutant du bruit soigneusement conçu, des perturbations des données invisibles à l’œil humain mais capables de provoquer un dysfonctionnement du modèle d’IA.
La version malveillante est introduite dans le modèle et la sortie est observée. Les résultats donnés par le modèle aident l’acteur de la menace à continuer à modifier la version jusqu’à ce qu’il soit suffisamment confiant pour qu’elle classifie mal toutes les données qui lui sont fournies.
Techniques utilisées dans les attaques adverses
Les entités malveillantes peuvent utiliser différentes techniques pour mener des attaques adverses. Voici quelques-unes de ces techniques.
1. L’empoisonnement
Les attaquants peuvent manipuler (empoisonner) une petite partie des données d’entrée d’un modèle d’IA afin de compromettre ses ensembles de données d’entraînement et sa précision.
Il existe plusieurs formes d’empoisonnement. L’une des plus courantes est l’empoisonnement par porte dérobée, qui affecte très peu de données d’apprentissage. Le modèle d’IA continue à donner des résultats très précis jusqu’à ce qu’il soit « activé » pour dysfonctionner au contact de déclencheurs spécifiques.
2. L’évasion
Cette technique est plutôt mortelle, car elle permet d’éviter la détection en s’attaquant au système de sécurité de l’IA.
La plupart des modèles d’IA sont équipés de systèmes de détection des anomalies. Les techniques d’évasion utilisent des exemples contradictoires qui s’attaquent directement à ces systèmes.
Cette technique peut être particulièrement dangereuse contre les systèmes cliniques tels que les voitures autonomes ou les modèles de diagnostic médical. Il s’agit de domaines où les imprécisions peuvent avoir de graves conséquences.
3. La transférabilité
Les acteurs de la menace qui utilisent cette technique n’ont pas besoin de connaître les paramètres du modèle d’IA. Ils utilisent des attaques adverses qui ont réussi dans le passé contre d’autres versions du modèle.
Par exemple, si une attaque contradictoire amène un modèle de classification d’images à confondre une tortue avec un fusil, l’attaque exacte pourrait amener d’autres modèles de classification d’images à commettre la même erreur. Les autres modèles pourraient avoir été formés sur un ensemble de données différent et même avoir une architecture différente, mais pourraient toujours être victimes de l’attaque.
4. La maternité de substitution
Au lieu de s’attaquer aux systèmes de sécurité du modèle en utilisant des techniques d’évasion ou des attaques précédemment réussies, l’acteur de la menace pourrait utiliser un modèle de substitution.
Avec cette technique, l’acteur de la menace crée une version identique du modèle cible, un modèle de substitution. Les résultats, les paramètres et les comportements d’un modèle de substitution doivent être identiques au modèle original qui a été copié.
Le modèle de substitution sera alors soumis à diverses attaques adverses jusqu’à ce que l’une d’entre elles produise un résultat inexact ou une classification erronée. Ensuite, cette attaque sera utilisée sur l’IA cible originale.
Comment mettre fin aux attaques adverses
La défense contre les attaques adverses peut être complexe et prendre du temps, car les acteurs de la menace utilisent diverses formes et techniques. Cependant, les étapes suivantes permettent de prévenir et d’arrêter les attaques adverses.
1. Formation sur les attaques adverses
L’étape la plus efficace pour prévenir les attaques adverses est l’entraînement contradictoire, c’est-à-dire l’entraînement des modèles d’IA et des machines à l’aide d’exemples contradictoires. Cela améliore la robustesse du modèle et lui permet de résister aux moindres perturbations d’entrée.
2. Audit régulier
Il est nécessaire de vérifier régulièrement les faiblesses du système de détection des anomalies d’un modèle d’IA. Cela implique d’alimenter délibérément le modèle avec des exemples contradictoires et de surveiller le comportement du modèle face à l’entrée malveillante.
3. Assainissement des données
Cette méthode consiste à vérifier si des données malveillantes sont introduites dans le modèle. Après les avoir identifiées, elles doivent être supprimées immédiatement.
Ces données peuvent être identifiées à l’aide de la validation des entrées, qui consiste à vérifier si les données présentent des schémas ou des signatures d’exemples adverses connus antérieurement.
4. Mises à jour de sécurité
Il serait difficile de se tromper avec les mises à jour et les correctifs de sécurité. La sécurité multicouche comme les pare-feu, les programmes anti-malware et les systèmes de détection et de prévention des intrusions peut aider à bloquer les interférences externes des acteurs de la menace qui veulent empoisonner un modèle d’IA.
Les attaques adverses pourraient être un adversaire digne de ce nom
Le concept d’attaques adverses pose un problème pour l’apprentissage avancé et l’apprentissage automatique.
Par conséquent, les modèles d’IA doivent être armés de défenses telles que l’entraînement à la lutte contre les adversaires, l’audit régulier, l’assainissement des données et les mises à jour de sécurité pertinentes.
S’abonner à notre lettre d’information
Qu’est-ce qu’une attaque contradictoire dans l’IA ?
À la base, les attaques adverses sont des attaques malveillantes sur les données qui peuvent sembler correctes à un œil humain, mais qui provoquent une mauvaise classification dans un pipeline d’apprentissage automatique. Ces attaques se présentent souvent sous la forme de « bruit » spécialement conçu pour provoquer des erreurs de classification.
Comment surmonter les attaques adverses ?
Une défense plus générale contre les attaques adverses consiste à élaborer une évaluation des risques de haut niveau et à planifier une approche holistique de la cybersécurité sur la base de cette évaluation. Plus important encore, si le modèle est déployé dans un espace d’entrée à haut risque, toutes les parties prenantes doivent être conscientes des menaces potentielles qui pèsent sur le modèle.
Comment peut-on se défendre contre les attaques de l’IA ?
Défense contre les attaques d’IA adverses Un exemple est Defense-GAN, qui utilise une technique d’apprentissage automatique connue sous le nom de réseau adversatif génératif (GAN) pour générer des données adverses, qui peuvent ensuite être utilisées pour former le classificateur afin de le défendre contre d’autres données adverses.
Comment se défendre contre des exemples contradictoires ?
Une façon de se défendre contre les exemples contradictoires serait de les générer nous-mêmes, de les étiqueter comme contradictoires et de les utiliser pour entraîner notre réseau neuronal. Le réseau neuronal sera probablement en mesure d’identifier des schémas dans l’image qui indiquent sa nature contradictoire.