Détecter les risques de confidentialité des modèles d’IA

Publié le 12 sept. 2025 - Mis à jour le 18 sept. 2025

La diversification des usages de l’Intelligence Artificielle fait émerger de nouveaux risques de confidentialité. Des cyber-attaques ciblées visent notamment à extraire les données d’entraînement des modèles. Dans ce contexte, le DataLab Groupe (TEC) développe de nouveaux outils pour anticiper et détecter ces menaces, afin de mettre en place des parades adaptées et préserver la confiance des usagers.

Ces travaux, menés conjointement avec l’École Polytechnique dans le cadre de la chaire « IA de Confiance et Responsable », ont déjà été partagés lors du Google Responsible AI Summit (Paris, 2024) et du Forum Industriel sur l’IA de l’AFIA (Paris, 2025). Ils seront également présentés lors de la conférence très sélective ECAI à Bologne en octobre 2025.

Comment anticiper les cyberattaques visant la confidentialité des systèmes d’IA ?

Qu’est-ce qu’une attaque de confidentialité ?

Comme tout système d’information, les solutions d’Intelligence Artificielle peuvent faire l’objet de nombreux types de cyber-attaques, que ce soit pour empoisonner les données d’entraînement, influencer la prise de décision, ou détourner le système du cas d’usage pour lequel il a été conçu. Tous ces risques menacent la sureté et la fiabilité des systèmes d’IA en production, et il est donc crucial de les évaluer correctement pour les anticiper et déployer les parades les plus adaptées.

Parmi ces cyber-attaques, certaines ont pour objectif de récupérer les données d’entraînement des modèles d’IA. En effet, les systèmes d’IA actuels, et tout particulièrement dans le domaine bancaire, sont entrainés sur de grands volumes de données qui peuvent inclure des données confidentielles, internes et/ou à caractère personnel. Ces attaques mesurent notamment le comportement du système lorsqu’on lui présente des données d’entrées malicieuses, afin de « deviner » les données d’entraînement qui ont pu induire de tels comportements. Dans les cas les plus graves, ces attaques peuvent conduire à la régurgitation du verbatim des données d’entraînement.

Quels sont les techniques de défense ?

Chercheurs et industriels ont défini un cadre général de conception de systèmes IA qui permet d’améliorer leur robustesse face à ces menaces. Ainsi, deux types d’approches défensives existent :

Des approches proactives, visant à améliorer la robustesse intrinsèque des modèles pendant leur phase de conception ;
Des approches réactives, visant à renforcer le contrôle des données en entrée du modèle en production.

Cependant, ces techniques défensives présentent un coût important en termes de performance, de rapidité et de disponibilité du système. Il est donc important de mesurer précisément la vulnérabilité de chaque système afin de dimensionner les techniques de défense à implémenter pour maintenir ses performances tout en le protégeant le plus efficacement possible.

Notre approche pour prédire la vulnérabilité des systèmes

Nous avons développé une nouvelle approche, simple à implémenter et très légère en temps de calcul, permettant de prédire la vulnérabilité des données d’entraînement d’un système d’IA. Cette approche se base notamment sur l’analyse de la façon dont le modèle d’IA représente chaque donnée et l’interaction entre cette représentation et le reste des données d’entraînement. Elle a été validée tant sur le plan théorique que via des expérimentations sur de multiples modèles et jeux de données.

À terme, cette approche permettra d’augmenter la performance des modèles en s’assurant que les données reçoivent le bon niveau de protection pour maintenir la confiance tout en préservant l’efficacité du modèle. Enfin, pour s’adapter à l’inventivité des hackers, les techniques défensives comme la nôtre doivent évoluer continuellement, et c’est pourquoi notre approche s’inscrit plus généralement dans le cadre méthodologique et technologique de conception d’IA de confiance.

Et concrètement au Crédit Agricole ?

Le DataLab Groupe s’intéresse depuis plusieurs années aux cyber-attaques spécialisées dans le cadre de ses travaux de R&D sur la conception d’IA de confiance. En complément, les travaux de la chaire « IA de Confiance et Responsable » avec l’École Polytechnique, ces traitent notamment des attaques sur les IA génératives textuelles dont l’usage s’intensifie dans les processus bancaires digitalisés. Leur protection est donc devenue une priorité.

Ces travaux ont permis la mise en place d’un cadre d’évaluation de la robustesse de ce type d’IA face aux attaques de confidentialité afin de déployer les techniques de défense les plus adaptées. Ils ont mené à la publication d’un article de recherche dans une conférence scientifique majeure dans le domaine, la European Conference on Artificial Intelligence (ECAI)⁽¹⁾, où ils seront présentés le 27 octobre à Bologne.

Ces nouveaux travaux viennent enrichir la méthodologie certifiée (LNE) du Groupe et ses Assets communs⁽²⁾ technologiques pour favoriser la conception de systèmes IA dignes de confiance, avec des techniques de défense réactives pour alerter en cas d’attaque et ainsi limiter l’impact. Ils enrichiront également les leviers de détection et de réduction des Risques IA intégrés au cadre normatif IA de la Design Authority IA Groupe. Enfin, l’AI Factory Group s’appuiera sur ces avancées pour accompagner les entités souhaitant renforcer la résilience de leurs systèmes d’IA.

Nous contacter

Pour plus d’information sur le sujet, vous pouvez contacter :

Aymen SHABOU, CTO DataLab Groupe & AI Factory Groupe
Jérémie DENTAN, doctorant École Polytechnique / DataLab Groupe Crédit Agricole – Chaire IA de Confiance et Responsable

Notes

(1) ECAI est une conférence qui réunit chaque année des centaines de chercheurs, étudiants et professionnels de l’industrie pour une semaine de discussions, ateliers et présentations autour de l’Intelligence Artificielle. Cet événement sert de plateforme d’innovation et de collaboration en IA, attirant des participants d’Europe et d’ailleurs.

(2) Asset commun : solution ou brique logicielle industrielle suffisamment générique (architecture, Frameworks, méthodes, codes, composants de l’offre mutualisée CAGIP…) pour être adaptée à de nouveaux contextes et usages avec un effort maitrisé.