Post

AR : AI Security

Mon premier Article Réflexif du semestre s’est porté sur la sécurité des IA.

J’y ai abordé les types d’IA existantes (spécifiques et génériques) puis ai exploré les différents types d’attaques possibles sur ces IA :

  • Attaques sur les modèles (avec des exemples de data poisoning)
  • Attaques de déconstruction de données d’entraînement (avec des exemples de prompt injection, model inversion, membership inference)
  • Vols de modèles

Et j’ai terminé ce chapitre en abordant les différentes solutions possibles pour se protéger de ces attaques :

  • Traiter les IA comme du software professionnel (faire des analyses de risques, former les développeurs, faire des analyses statiques, des review de code, des tests de pénétration, etc.)
  • Protéger les pipelines des IA contre l’empoisonnement des données, les attaques de leaking, le vol de modèle, etc.

Dans mon expérimentation j’ai ensuite testé des attaques de prompt injection et leaking sur GPT-3, puis ai “joué” au jeu de Simon Says avec GPT-3.5 en escaladant la complexité des attaques puis la robustesses des défenses mises en place, en remarquant qu’il était possible de continuer à escalader la complexité des attaques et des défenses.

L’article est disponible ici.

This post is licensed under CC BY 4.0 by the author.