Data Glossaire

Qu’est-ce que la pseudonymisation ?

February 12, 2021  |   Arthur Sauvage

Depuis l’entrée en vigueur du Règlement Général sur la Protection des Données (RGPD), la protection des données informatiques est devenue une préoccupation centrale pour les internautes particuliers, mais aussi pour les entreprises. Parmi les méthodes de protection apparaît la « pseudonymisation », une technique visant à dissimuler les données personnelles. Mais de quoi s’agit-il vraiment ? Voyons ce qui se cache réellement sous ce terme technique.

 

L’origine du terme « pseudonymisation »

Première apparition

Le terme « pseudonymisation » apparaît pour la première fois en 2009 dans le cadre schématique ISO/TS 25237:2008, relatif à l’informatique de santé. Dans ce cadre, la définition de pseudonymisation reste simplement : « remplacement d’un nom par un pseudonyme ». Il est défini de manière plus technique par : « processus par lequel les données perdent leur caractère nominatif ». Dès lors, on comprend qu’il s’agit d’un système pour cacher des informations personnelles et notamment un nom et un prénom.

 

RGPD et évolution de la définition

Lorsque le RGPD est sorti en 2016, le concept de pseudonymisation est resté, mais la définition a été quelque peu revisitée. Il s’agit selon la CNPD (Commission Nationale pour la Protection des Données) « du traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une certaine personne concernée précise sans avoir recours à des informations supplémentaires ». Elle permet donc de toujours identifier une personne physique grâce à ses données personnelles, car elle consiste tout simplement à remplacer un caractère par un autre dans le cadre d’un enregistrement, et ce sans avoir recours à des informations supplémentaires. Les données ne sont donc pas vraiment anonymes sans être identifiables.

En pratique, la pseudonymisation consiste à remplacer les données directement identifiantes, telles que le nom et le prénom, par des données indirectement identifiantes (alias, numéro de classement, etc.). Il reste donc possible de retrouver l’identité de la personne grâce à des données tierces. De ce fait, des données pseudonymisées restent des données personnelles.

Ne pas confondre pseudonymisation et anonymisation
La pseudonymisation est par définition une technique de sécurisation réversible, puisque l’identification de la personne reste possible en créant le lien entre les données apparentes et les données d’origine. À l’inverse, l’anonymisation consiste à rendre impossible, de manière irréversible, toute identification de la personne par quelque moyen que ce soit.

 

Comment fonctionne la pseudonymisation ?

Pour mettre en place la pseudonymisation dans le cadre du RGPD, différentes techniques sont utilisées.

 

Le cryptage à clé secrète

Dans le cas d’un cryptage à clé secrète, la personne qui se charge du traitement des données détient la clé de cryptage. Elle peut donc retrouver l’identité de la personne concernée en décryptant les données utilisées à l’aide de cette clé. Les données à caractère personnel sont en effet toujours présentes même si c’est sous une forme cryptée (ou codée).

 

La fonction de hachage

La fonction de hachage permet de retrouver un résultat de taille fixe, quelle que soit la grandeur de l’attribut ou de l’ensemble d’attributs que l’on a entré. Cependant, ce type de technique présente un risque, car les données dissimulées peuvent être retrouvées si leurs limites minimum et maximum sont retrouvées. Pour réduire le risque, on peut ajouter une fonction de « salage » c’est-à-dire une valeur aléatoire supplémentaire appelée « sel ». C’est le caractère aléatoire de cette donnée supplémentaire qui permet de réduire les possibilités de retrouver les données.

 

La fonction de hachage par clé et clé enregistrée

Le « sel » n’est généralement pas secret, ce qui implique inévitablement un risque. On peut donc utiliser une clé secrète comme valeur supplémentaire. Ainsi, un hacker aura plus de difficultés à retrouver la valeur d’entrée puisqu’il ne peut connaître au préalable la valeur de la clé que le responsable du traitement de données peut changer à volonté. Un changement de clé régulier est d’ailleurs indispensable pour éviter que le hacker puisse tester un nombre infini de possibilités.

 

Le chiffrement déterministe

La méthode par chiffrement déterministe pourrait être assimilée à un hachage avec clé, mais avec suppression de la clé. Cette méthode génère un nombre aléatoire comme alias pour chaque élément de la base de données. Après génération des alias, la « table de correspondance » est effacée. Il s’agit de la technique de pseudonymisation la plus approfondie, car retrouver les données d’origine requiert de retrouver l’algorithme et de décrypter les données, mais aussi d’essayer chaque clé possible, puisque la clé utilisée n’est disponible nulle part.

 

La pseudonymisation fait partie des techniques indispensables en matière de protection des données personnelles. Même s’il ne s’agit pas de la technique la plus radicale, elle permet de dissimuler les données les plus sensibles avec l’avantage de pouvoir les retrouver dans la mesure où cela s’avérerait nécessaire.

Découvrez comment LiveRamp peut vous aider dans le contrôle, la gestion et l’activation de vos données grâce à la pseudonymisation.

Découvrez notre ebook : Le CRM Onboarding Augmente l’impact de votre budget Marketing