Personal Data

Anonymisation des données : techniques, RGPD et limites

Anonymisation des données personnelles : techniques, critères RGPD, différence avec la pseudonymisation et risques.

L’anonymisation est la seule technique qui fait sortir les données du champ d’application du RGPD. Lorsqu’elle est correctement mise en oeuvre, les données anonymisées ne sont plus des données personnelles et peuvent être librement exploitées à des fins statistiques, de recherche ou commerciales.

Mais cette promesse juridique exige une rigueur technique extrême. Le considérant 26 du RGPD fixe le standard : l’anonymisation doit résister à toute tentative de ré-identification par des « moyens raisonnablement susceptibles d’être utilisés ». Cet article détaille les techniques disponibles, les critères de validation et les risques concrets de ré-identification.

Qu’est-ce que l’anonymisation des données ?

Pourquoi l’anonymisation échappe-t-elle au RGPD ?

Le considérant 26 du RGPD est explicite : « les principes relatifs à la protection des données ne devraient […] pas s’appliquer aux informations anonymes, à savoir les informations ne concernant pas une personne physique identifiée ou identifiable ». Ce texte distingue clairement les données anonymisées (hors champ) des données pseudonymisées (dans le champ).

Pour qu’une donnée soit considérée comme anonyme, il faut qu’aucun acteur — y compris le responsable de traitement lui-même — ne puisse, par des moyens raisonnables, ré-identifier la personne concernée. Le critère du « moyen raisonnable » s’apprécie objectivement au regard du coût, du temps nécessaire et des technologies disponibles au moment de l’analyse.

Le groupe de travail Article 29 (devenu le CEPD) a précisé dans son avis 05/2014 que l’anonymisation doit être irréversible et que le responsable de traitement doit prouver qu’il ne conserve aucune information permettant la ré-identification. Ce standard reste la référence technique utilisée par la CNIL et les autorités de contrôle européennes.

Différence avec la pseudonymisation

La distinction est juridiquement déterminante. La pseudonymisation remplace les identifiants directs par des pseudonymes, mais une table de correspondance permet de rétablir le lien. Les données pseudonymisées restent des données personnelles au sens de l’article 4 du RGPD.

L’anonymisation, en revanche, supprime toute possibilité de ré-identification, y compris par le responsable de traitement. Il n’existe aucune clé, aucune table de correspondance, aucun moyen technique ou juridique de remonter à la personne.

L’arrêt CJUE EDPS c. SRB (aff. C-413/23 P, 4 septembre 2025) a renforcé cette distinction. La Cour a adopté une approche contextuelle : des données pseudonymisées peuvent ne pas être personnelles pour un tiers qui ne dispose d’aucun moyen raisonnable de ré-identification. Mais cela ne les rend pas anonymes pour autant — le responsable de traitement qui détient la clé continue de traiter des données personnelles.

En pratique, l’anonymisation est un état définitif. La pseudonymisation est une mesure de sécurité réversible. Choisir l’une ou l’autre a des conséquences directes sur les obligations applicables : registre des traitements, base juridique, droits des personnes et notification des violations.

Techniques d’anonymisation

Quelles sont les principales méthodes ?

L’avis 05/2014 du groupe Article 29 identifie deux familles de techniques : la randomisation et la généralisation.

La randomisation modifie les valeurs des données pour réduire leur lien avec la personne. Cela inclut l’ajout de bruit (ajouter des variations aléatoires aux valeurs numériques), la permutation (intervertir les valeurs d’un attribut entre les enregistrements) et la confidentialité différentielle (injecter un bruit calibré mathématiquement pour garantir que la présence ou l’absence d’un individu n’affecte pas significativement le résultat d’une requête). Apple et Google utilisent la confidentialité différentielle depuis 2016 pour collecter des statistiques d’usage sans identifier leurs utilisateurs.

La généralisation réduit la granularité des données. Elle comprend l’agrégation (remplacer des valeurs individuelles par des fourchettes : 35 ans devient « 30-39 ans »), le k-anonymat (s’assurer que chaque combinaison de quasi-identifiants apparaît dans au moins k enregistrements), la l-diversité (garantir que chaque groupe k-anonyme contient au moins l valeurs distinctes pour l’attribut sensible) et la t-proximité (s’assurer que la distribution de l’attribut sensible dans chaque groupe est proche de sa distribution globale).

La suppression, technique la plus radicale, consiste à retirer intégralement les attributs identifiants ou quasi-identifiants. Elle est simple à mettre en oeuvre mais réduit considérablement l’utilité analytique des données.

En pratique, les spécialistes recommandent de combiner plusieurs techniques. Un rapport de la CNIL souligne qu’aucune technique isolée ne garantit l’anonymisation : seule une approche combinée, adaptée au contexte, peut atteindre le standard requis.

Comment vérifier qu’une anonymisation est irréversible ?

L’avis 05/2014 du groupe Article 29 propose trois critères de vérification, repris par la CNIL et le CEPD.

Le critère d’individualisation : il ne doit pas être possible d’isoler un individu dans le jeu de données. Si un enregistrement peut être distingué des autres par une combinaison unique d’attributs, l’anonymisation est insuffisante.

Le critère de corrélation : il ne doit pas être possible de relier deux enregistrements distincts (dans le même jeu de données ou entre jeux de données différents) à la même personne. Ce critère vise les attaques par croisement de bases.

Le critère d’inférence : il ne doit pas être possible de déduire, avec une probabilité significative, la valeur d’un attribut à partir des autres attributs. Par exemple, si dans un groupe de 5 personnes anonymisées, 4 ont la même pathologie, la cinquième est identifiable par inférence.

Le CEPD a organisé le 12 décembre 2025 un événement parties prenantes réunissant 115 participants pour recueillir des retours sur ces critères. Le rapport publié le 18 février 2026 note que les praticiens demandent des orientations plus concrètes, notamment sur la fréquence de réévaluation (le CEPD suggère tous les 2 à 3 ans) et sur les spécificités sectorielles (santé, publicité en ligne).

Risques et limites de l’anonymisation

Cas de ré-identification et jurisprudence

L’histoire de la protection des données est jalonnée de cas où des jeux de données prétendument anonymisés ont été ré-identifiés.

En 2006, AOL a publié 20 millions de requêtes de recherche de 650 000 utilisateurs, identifiés par des numéros arbitraires. Deux journalistes du New York Times ont pu identifier une utilisatrice de 62 ans en Géorgie en analysant ses requêtes. L’incident a provoqué la démission du directeur technique d’AOL et une action collective.

En 2007, les chercheurs Arvind Narayanan et Vitaly Shmatikov ont démontré qu’il était possible de ré-identifier 99 % des utilisateurs du jeu de données Netflix Prize (100 millions de notations de films de 500 000 abonnés) en croisant ces données avec des critiques publiques sur IMDb. Netflix a annulé la deuxième édition du concours sous la pression de la FTC.

En 2014, le jeu de données des taxis new-yorkais, où les numéros de médaillons avaient été pseudonymisés par hachage, a été ré-identifié par ingénierie inverse du MD5. Les revenus individuels des chauffeurs ont été exposés.

Ces cas illustrent que la suppression des identifiants directs ne suffit pas. La combinaison de quasi-identifiants (date, lieu, montant) avec des sources externes permet souvent la ré-identification. La chercheuse Latanya Sweeney a démontré dès 2000 que 87 % de la population américaine peut être identifiée par la seule combinaison du code postal, de la date de naissance et du sexe.

Pour les organisations, la leçon est claire : l’anonymisation doit être évaluée au regard de l’ensemble des sources de données accessibles, y compris les données publiques. Le DPO doit intégrer cette analyse dans l’évaluation d’impact (DPIA) prévue par l’article 35 du RGPD.

Recommandations pratiques pour limiter les risques

Le rapport du CEPD de février 2026 et les retours des 115 parties prenantes convergent vers plusieurs recommandations concrètes. Réévaluer les techniques d’anonymisation tous les 2 à 3 ans pour tenir compte de l’évolution des capacités de calcul et des nouvelles sources de données ouvertes.

Combiner systématiquement plusieurs techniques (randomisation + généralisation, par exemple) plutôt que de s’appuyer sur une seule méthode. Documenter l’analyse de risque de ré-identification dans le registre des traitements, en identifiant les sources externes susceptibles de permettre un croisement.

Enfin, prévoir des audits par des tiers indépendants, car les évaluations internes sous-estiment souvent le risque de ré-identification. Des outils comme Legiscope permettent de structurer cette documentation et de planifier les réévaluations périodiques.

Avertissement juridique : cet article est fourni à titre informatif et ne constitue pas un conseil juridique. Pour toute question relative à votre situation, consultez un avocat spécialisé en protection des données.

FAQ

Quelle est la différence entre anonymisation et pseudonymisation sous le RGPD ?

L’anonymisation supprime irréversiblement tous les identifiants permettant de rattacher des données à une personne. La pseudonymisation remplace les identifiants par des codes réversibles. Les données anonymisées échappent au RGPD ; les données pseudonymisées restent des données personnelles.

Une donnée anonymisée peut-elle redevenir personnelle ?

Si la réidentification est possible — même théoriquement pour quelqu’un disposant de moyens raisonnables — la donnée n’est pas véritablement anonyme et reste dans le champ du RGPD. La CNIL et le G29 (WP216) ont publié des critères pour évaluer le risque de réidentification.

Quelles techniques d’anonymisation sont acceptées par les autorités de protection des données ?

La k-anonymité, la l-diversité, la généralisation, la suppression, et le bruit différentiel sont des techniques reconnues. Aucune n’est parfaite — l’évaluation se fait au cas par cas selon le contexte et les données disponibles à l’extérieur pour une réidentification potentielle.

Peut-on anonymiser des données pour éviter les obligations de durée de conservation ?

Oui. Des données véritablement anonymisées ne sont plus des données personnelles et sortent du périmètre du RGPD — leur conservation est alors libre. Mais l’anonymisation doit être irréversible et documentée. Une pseudonymisation ne suffit pas à écarter les obligations de durée de conservation.

Conclusion

L’anonymisation offre un avantage juridique considérable — la sortie du champ du RGPD — mais cet avantage est conditionné à une mise en oeuvre rigoureuse. Les trois critères du groupe Article 29 (individualisation, corrélation, inférence) restent la référence pour évaluer la robustesse d’une anonymisation. Les cas de ré-identification AOL, Netflix et NYC Taxi rappellent que la suppression des identifiants directs est insuffisante.

L’approche contextuelle confirmée par la CJUE en 2025 et les travaux du CEPD (lignes directrices 01/2025, événement parties prenantes de décembre 2025) orientent vers une évaluation dynamique, tenant compte des technologies disponibles et des sources de données accessibles. Les organisations doivent réévaluer régulièrement leurs techniques d’anonymisation et documenter cette analyse dans leur registre de conformité.

Dernière vérification : mars 2026

Automate your GDPR compliance

Save 340+ hours per year on compliance work. Legiscope provides AI-powered GDPR management trusted by compliance professionals.

Discover Legiscope
TD
Written by
Dr. Thiébaut Devergranne
Fondateur de Legiscope et expert RGPD

Docteur en droit de l'Université Panthéon-Assas (Paris II), 23 ans d'expérience en droit du numérique et conformité RGPD. Ancien conseiller de l'administration du Premier ministre sur la mise en œuvre du RGPD. Thiébaut est le fondateur de Legiscope, plateforme de conformité RGPD automatisée par l'IA.