RGPD et intelligence artificielle : concilier IA et données

Le RGPD et l’intelligence artificielle semblent souvent en tension : l’IA exige des volumes massifs de données pour l’entraînement, tandis que le RGPD impose la minimisation. Pourtant, le RGPD n’interdit pas l’IA. Il encadre l’utilisation de données personnelles dans les systèmes d’IA avec des règles précises. La CNIL a publié en 2024 ses recommandations sur l’application du RGPD à l’intelligence artificielle, et les premières sanctions ciblant spécifiquement des systèmes d’IA sont tombées. La société Clearview AI a été sanctionnée par quatre autorités européennes (CNIL, Garante, ICO, AEPD) pour un total cumulé de plus de 60 millions d’euros. Ce guide détaille les obligations RGPD applicables aux systèmes d’IA.

Points Clés

Tout système d’IA traitant des données personnelles doit reposer sur une base juridique valide de l’Art. 6(1) RGPD, y compris pour la phase d’entraînement.
L’Art. 22 RGPD encadre les décisions entièrement automatisées produisant des effets juridiques ou significatifs, avec un droit d’opposition et d’intervention humaine.
Une AIPD (Art. 35 RGPD) est obligatoire pour la plupart des systèmes d’IA traitant des données personnelles à grande échelle.
Le RGPD et l’AI Act s’appliquent cumulativement : la conformité à l’un ne dispense pas de la conformité à l’autre.

Bases légales pour l’entraînement de l’IA

L’entraînement d’un modèle d’IA sur des données personnelles constitue un traitement au sens de l’Art. 4(2) RGPD. Chaque phase (collecte, préparation, entraînement, inférence) doit reposer sur une base juridique de l’Art. 6(1).

Consentement (Art. 6(1)(a))

Le consentement est rarement praticable pour l’entraînement de modèles à grande échelle. Il doit être libre, spécifique, éclairé et univoque (Art. 4(11)). Pour un dataset de millions d’enregistrements, obtenir et gérer un consentement individuel pose des défis opérationnels considérables. De plus, le retrait du consentement (Art. 7(3)) soulève la question de la suppression effective des données dans un modèle déjà entraîné.

Intérêt légitime (Art. 6(1)(f))

L’intérêt légitime est la base juridique la plus fréquemment invoquée pour l’entraînement. La CNIL a précisé dans ses recommandations de 2024 que l’intérêt légitime peut être retenu si le triple test est satisfait :

Intérêt légitime identifié : développement d’un service innovant, amélioration de la sécurité, recherche.
Nécessité : le traitement est nécessaire pour atteindre cet intérêt et il n’existe pas de moyen moins intrusif.
Balance des intérêts : les droits et libertés des personnes ne prévalent pas, compte tenu des mesures de minimisation, de pseudonymisation et de transparence mises en oeuvre.

La CNIL a souligné que cette base est fragile pour les données sensibles (Art. 9) et les données de personnes vulnérables.

Exécution d’une mission d’intérêt public (Art. 6(1)(e))

Pour les organismes de recherche publics, cette base juridique peut couvrir l’entraînement de modèles dans un cadre de recherche scientifique. L’Art. 89 RGPD prévoit des dérogations spécifiques pour la recherche, sous réserve de garanties appropriées (pseudonymisation, minimisation).

Profilage et décisions automatisées : Art. 22 RGPD

L’Art. 22(1) RGPD interdit en principe les décisions fondées exclusivement sur un traitement automatisé, y compris le profilage, qui produisent des effets juridiques ou affectent de manière significative la personne. Trois exceptions existent (Art. 22(2)) :

Le consentement explicite de la personne
La nécessité pour la conclusion ou l’exécution d’un contrat
L’autorisation par le droit de l’UE ou d’un État membre

Exemples de décisions couvertes par l’Art. 22 : refus automatisé d’un crédit par un algorithme, rejet automatique d’une candidature par un outil de tri de CV, tarification individualisée par profilage.

Garanties obligatoires (Art. 22(3)) : le responsable de traitement doit mettre en oeuvre des mesures appropriées pour la sauvegarde des droits, libertés et intérêts légitimes de la personne, « au moins le droit d’obtenir une intervention humaine, d’exprimer son point de vue et de contester la décision ».

La CJUE a précisé dans l’arrêt C-634/21 (SCHUFA, 7 décembre 2023) que le calcul d’un score de crédit par un organisme constitue un profilage au sens de l’Art. 22, y compris lorsque ce score est utilisé par un tiers pour prendre la décision finale.

AIPD obligatoire pour les systèmes d’IA

L’Art. 35(1) RGPD impose une analyse d’impact lorsqu’un traitement est « susceptible d’engendrer un risque élevé pour les droits et libertés des personnes physiques ». L’Art. 35(3) cite explicitement « l’évaluation systématique et approfondie d’aspects personnels […] fondée sur un traitement automatisé, y compris le profilage ».

La CNIL a inclus dans sa liste des traitements soumis à AIPD obligatoire (délibération n°2018-327, 11 octobre 2018) les traitements utilisant :

Le profilage de personnes physiques
Le traitement à grande échelle de données sensibles
La surveillance systématique
L’utilisation innovante de technologies

En pratique, tout système d’IA utilisant des données personnelles pour produire des décisions ou des recommandations individualisées nécessite une AIPD. L’analyse doit évaluer la nécessité et la proportionnalité du traitement, les risques pour les personnes et les mesures d’atténuation.

Minimisation et données d’entraînement

Le principe de minimisation (Art. 5(1)©) s’applique à l’entraînement de l’IA. La CNIL a précisé dans ses recommandations que :

La collecte doit être proportionnée : collecter « tout Internet » pour entraîner un modèle n’est pas conforme si des datasets plus ciblés permettent d’atteindre un résultat comparable.

La pseudonymisation est attendue : les données d’entraînement doivent être pseudonymisées lorsque l’identification directe n’est pas nécessaire à l’objectif du traitement. Les techniques de masquage, de remplacement et de k-anonymat sont recommandées.

La suppression post-entraînement : les données brutes d’entraînement doivent être supprimées une fois le modèle entraîné si elles ne sont plus nécessaires. La conservation pour le réentraînement doit être justifiée et documentée.

Le droit à l’effacement : l’Art. 17 RGPD donne aux personnes le droit de demander l’effacement de leurs données. Pour un modèle d’IA déjà entraîné, la question du « machine unlearning » (désapprentissage) se pose. La CNIL reconnaît que l’effacement complet des données dans les poids d’un modèle n’est pas toujours techniquement réalisable, mais attend des mesures de mitigation (suppression des données sources, filtrage des outputs).

Transparence algorithmique

L’Art. 13(2)(f) et 14(2)(g) RGPD imposent d’informer les personnes de « l’existence d’une prise de décision automatisée, y compris un profilage […] et, au moins en pareil cas, des informations utiles concernant la logique sous-jacente, ainsi que l’importance et les conséquences prévues de ce traitement ».

Cette obligation de transparence ne signifie pas publier le code source ou les poids du modèle. Mais elle exige :

D’informer les personnes qu’un système d’IA est utilisé pour traiter leurs données
D’expliquer la logique générale du traitement de manière compréhensible
D’indiquer les conséquences pour la personne
De permettre la contestation et l’intervention humaine

La politique de confidentialité doit inclure ces informations lorsqu’un système d’IA est utilisé pour le profilage ou les décisions automatisées.

Position de la CNIL sur l’IA

La CNIL a publié en 2024 un ensemble de recommandations structuré en plusieurs fiches pratiques couvrant :

Le cadre juridique applicable à l’entraînement
L’application du principe de finalité
Les conditions de réutilisation de données pour l’entraînement
Les mesures de protection des données d’entraînement
L’exercice des droits des personnes

La CNIL a également créé un service dédié à l’IA au sein de sa direction de la technologie et de l’innovation, signalant l’importance croissante de ce sujet dans sa stratégie de régulation.

RGPD et AI Act : articulation des deux textes

Le RGPD et le règlement européen sur l’IA (AI Act, Règlement 2024/1689) s’appliquent cumulativement. Leurs champs sont différents mais complémentaires :

Aspect	RGPD	AI Act
Objet	Protection des données personnelles	Sécurité et fiabilité des systèmes d’IA
Champ	Tout traitement de données personnelles	Systèmes d’IA mis sur le marché UE
Classification	Par base juridique et sensibilité	Par niveau de risque (interdit, élevé, limité, minimal)
Sanctions	20 M€ / 4 % CA mondial	35 M€ / 7 % CA mondial (IA interdite)

Un système d’IA classé « à haut risque » par l’AI Act et traitant des données personnelles doit se conformer simultanément aux obligations du RGPD (base légale, minimisation, AIPD, droits des personnes) et de l’AI Act (système de gestion des risques, données d’entraînement, transparence, supervision humaine). La conformité à l’un ne présume pas la conformité à l’autre.

FAQ

L’entraînement d’un modèle d’IA sur des données publiques est-il soumis au RGPD ?

Oui. Le caractère public des données ne dispense pas du RGPD. L’Art. 2(1) RGPD s’applique à tout traitement de données personnelles, quelle que soit leur source. La CNIL a sanctionné Clearview AI de 20 millions d’euros (Délibération n°SAN-2022-023) précisément pour avoir collecté des photographies accessibles publiquement sur Internet sans base légale. Le responsable de traitement doit identifier une base juridique (généralement l’intérêt légitime) et respecter l’ensemble des principes RGPD.

Comment appliquer le droit à l’effacement à un modèle d’IA entraîné ?

La question du « machine unlearning » reste techniquement complexe. La CNIL reconnaît que l’effacement des données dans les poids d’un modèle n’est pas toujours faisable. Les mesures attendues sont : suppression des données d’entraînement brutes, filtrage des outputs pour éviter la restitution de données personnelles, et documentation des mesures prises. Si le réentraînement est planifié, exclure les données de la personne du prochain cycle.

Une AIPD est-elle toujours obligatoire pour un projet d’IA ?

Non, pas systématiquement. L’Art. 35 RGPD exige une AIPD lorsque le traitement est susceptible d’engendrer un risque élevé. En pratique, la majorité des systèmes d’IA utilisant des données personnelles pour des décisions individualisées ou du profilage à grande échelle en nécessitent une. Un système d’IA interne utilisant uniquement des données agrégées et anonymisées n’entre pas dans cette obligation.

Le RGPD s’oppose-t-il au développement de l’IA en Europe ?

Non. Le RGPD impose des guardrails, pas une interdiction. La CNIL a explicitement reconnu que l’innovation en IA est compatible avec la protection des données si les principes sont respectés. L’intérêt légitime peut servir de base juridique pour l’entraînement, la pseudonymisation réduit les risques, et l’AIPD permet de documenter et d’atténuer les impacts. Les organisations qui intègrent le RGPD dès la conception (privacy by design, Art. 25) évitent les refontes coûteuses et les sanctions.

Automate your GDPR compliance

Save 340+ hours per year on compliance work. Legiscope provides AI-powered GDPR management trusted by compliance professionals.

Discover Legiscope

Written by

Dr. Thiébaut Devergranne

Fondateur de Legiscope et expert RGPD

Docteur en droit de l'Université Panthéon-Assas (Paris II), 23 ans d'expérience en droit du numérique et conformité RGPD. Ancien conseiller de l'administration du Premier ministre sur la mise en œuvre du RGPD. Thiébaut est le fondateur de Legiscope, plateforme de conformité RGPD automatisée par l'IA.

View full author profile →