CUREG 2.0

27. Mes données sont-elles réellement anonymes ? Comment gérer le risque de réidentification.

Qu’est-ce que la réidentification ?

La réidentification survient quand une personne peut être retrouvée dans une source de données prétendument anonymes en reliant des combinaisons de quasi-identifiants (p. ex. sexe, code postal, date de naissance, niveau d’études) à d’autres sources de données non-anonymes.

 

Exemple

Une équipe de recherche a recueilli des données sur la santé mentale des étudiant-es en deuxième année du bachelor en psychologie. Le questionnaire était anonyme. L’âge (en années) et le sexe (M/F/autre) étaient demandés. Par ailleurs, l’administration détient un fichier étudiant-es non-anonyme qui contient aussi l’âge et le sexe. Dans ce fichier la combinaison « Homme/49 ans/B2 psychologie » n’apparaît qu’une fois. Potentiellement, il est donc possible de réidentifier le participant qui correspond à la ligne « homme de 49 ans » dans le premier fichier de données prétendument anonymes.

 

Quels sont les risques liés à la réidentification pour les chercheurs et les chercheuses ?

La LIPAD donne la définition des données personnelles : « […]  toutes les informations se rapportant à une personne physique ou morale de droit privé, identifiée ou identifiable » (souligné par nous). Un fichier avec possibilité de réidentification tombe donc dans le champ de la LIPAD, et pose un risque légal pour les chercheurs et les chercheuses si le cadre de la LIPAD n’a pas été respecté.

Quels sont les risques liés à la réidentification pour les participant-es ?

Le risque de réidentification induit pour les participant-es une menace de divulgation de données personnelles sensibles.

Quelles sont les bonnes pratiques ?

Les chercheurs et les chercheuses sont invité-es à évaluer le risque de réidentification ainsi que les conséquences potentielles.

Concernant le risque, un calcul de k-anonymity (cf. ci-dessous) peut être réalisé. Un seuil de k>4 (au moins 5 personnes correspondent à n’importe quelle combinaison de quasi-identifiants dans le fichier prétendument anonyme) pourrait être considéré comme acceptable. Le risque doit être pondéré par la difficulté de la réidentification. Dans l’ORH (art.25) figure la notion « d’efforts disproportionnés » à mettre en œuvre pour réidentifier la personne. Ainsi si les sources qui permettent la réidentification n’existent pas, ne sont pas accessibles, ou alors moyennant des efforts disproportionnés, le risque peut être considéré comme acceptable. Les chercheurs et les chercheuses doivent porter attention au fait que les nouvelles technologies et les fuites de données peuvent rendre la réidentification plus facile qu’auparavant, notamment lorsqu’un fichier contient beaucoup de quasi-identifiants.

Concernant les conséquences, elles doivent être évaluées sur la base du type de données qui risquent d’être divulguées. Les données anodines (par exemple des temps de réactions sur une tâche de détection d’un signal) peuvent minimiser les conséquences d’une réidentification. Toutes les autres données, notamment celles considérées comme sensibles par la LPD et la LIPAD, celles qui pourraient mettre en danger les participant-es, ou celles qui pourraient être utilisées à des fins commerciales, doivent donner lieu à un traitement attentif du risque de réidentification.

 

Comment calculer la k-anonymity de votre source de données ? 

Considérons que votre source est un fichier anonyme contenant les données de 2000 participant-es âgé-es de 20 à 60 ans.  Parmi les données que vous possédez, 3 pourraient être utilisées comme quasi-identifiants : l’âge (en années, 41 modalités), le sexe (H/F/Autre, 3 modalités) et le canton d’habitation (Jura, Neuchâtel, Vaud, Genève, Berne, Fribourg et Valais, 7 modalités). Il existe 41*3*7 = 861 combinaisons des modalités des 3 quasi-identifiants. En comptant les occurrences de chacune de ces combinaisons dans votre fichier, vous constatez que certaines apparaissent rarement. Celle qui apparaît le plus rarement est F/42 ans/Jura. Cette combinaison apparaît 2 fois. Le k est de votre source de données est donc de 2.

Cet indice est très conservateur, car même si l’occurrence n’apparaissait qu’une seule fois dans votre fichier, il faudrait qu’elle apparaisse aussi une seule fois dans la deuxième source non-anonyme pour permettre une réidentification. Dans l’idéal, la k-anonymity devrait donc être calculée sur la seconde source non-anonyme mais cela est rarement possible. Calculée sur le fichier source prétendument anonyme, la k-anonymity reste un bon indicateur du risque attendu dans le pire des scénarios.

 

Quelles sont les solutions ?

La CUREG recommande d’examiner les possibilités suivantes :

  • Augmenter la k-anonymity. Cela peut se faire en continuant à inclure des participant-es jusqu’à atteindre le seuil de k>4, ou bien en excluant les participant-es dont le profil de quasi-identifiants apparaît moins de 5 fois dans la source de données prétendument anonymes.
  • Ne recueillir des quasi-identifiants que si cela est strictement nécessaire pour la recherche.
  • Recueillir des quasi-identifiants plus difficiles à utiliser pour la réidentification (p.ex. âge en catégories plutôt qu’en années, opinion politique sur un continuum plutôt qu’en catégories).
  • Restreindre fortement l’accessibilité du fichier de données prétendument anonyme. En cas de dépôt en open-data, un nettoyage du fichier peut être réalisé, par exemple en ôtant les quasi-identifiants si ceux-ci n’ont servi qu’à produire des statistiques globales sur l’échantillon (p. ex. ratio H/F/autre). D’autres techniques de bluring sont décrites dans la référence donnée en ressource ci-dessous.

 

Pour aller plus loin…

Ce guideline s’inspire de l’article de Morehouse et al. (2025). Dans cet article de nombreux conseils sont donnés pour estimer et diminuer le risque de réidentification :

° Morehouse, K. N., Kurdi, B., & Nosek, B. A. (2025). Responsible data sharing: Identifying and remedying possible re-identification of human participants. American Psychologist, 80(6), 928–941. https://doi.org/10.1037/amp0001346

 

En 2008 Narayanan et Shmatikov alertaient sur les possibilités de réidentification, notamment dans les fichiers contenant beaucoup de quasi-identifiants. En utilisant l’Internet Movie Database comme source de connaissances de base, ils ont réussi à identifier les dossiers Netflix d’utilisateurs connus, révélant leurs préférences politiques apparentes ainsi que d’autres informations potentiellement sensibles.

° Narayanan, A., & Shmatikov, V. (2008). Robust De-anonymization of Large Sparse Datasets. 2008 IEEE Symposium on Security and Privacy (Sp 2008), 111–125. https://doi.org/10.1109/SP.2008.33

° Narayanan, A., & Shmatikov, V. (2019). Robust de-anonymization of large sparse datasets: A decade later. de-anonymization-retrospective.pdf

 

Pour aller plus loin sur le concept de k-anonymity :

° Sweeney, L. (2002). k-ANONYMITY: A MODEL FOR PROTECTING PRIVACY. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(05), 557–570. https://doi.org/10.1142/S0218488502001648