Anonymisez en toute transparence avec MKYD

Avec l'utilisation croissante des données personnelles dans les processus, qu'il s'agisse des affaires, du marketing, de la santé ou de l'éducation, etc., la confidentialité des données devient une question clé pour les entreprises, les universités, les instituts de recherche et les gouvernements. L'anonymisation des données constitue un moyen relativement sûr d'utiliser les données sans compromettre la vie privée d'une personne. Cependant, dans le même temps, il existe une demande accrue de transparence dans ces processus. Dans ce contexte, l'anonymisation et la transparence apparaissent comme des concepts opposés, mais il est souvent nécessaire de les combiner.
Imaginons le cas d'un hôpital qui souhaite partager les données de ses patients avec une université qui teste un diagnostic expérimental. L'hôpital souhaite clairement préserver la confidentialité des informations relatives à ses patients. Cependant, si le diagnostic fourni par les recherches de l'université est positif, l'hôpital souhaiterait être en mesure d'identifier les patients concernés afin de pouvoir les informer.
Cet article résume comment MakeYourData, un logiciel d'anonymisation, réalise cette combinaison apparemment impossible en utilisant le hachage.
Le hachage est le processus de conversion d'une chaîne de caractères en une autre chaîne de caractères, souvent de longueur fixe. Par exemple, en utilisant l'algorithme de hachage SHA1 :
- Jean → 5753a498f025464d72e088a9d5d6e872592d5f91
- Marie → 94f85995c7492eec546c321821aa4beca9a3e2b1.
Ces chaînes apparemment aléatoires possèdent des propriétés très spécifiques, notamment :
- Lorsqu'une entrée spécifique est saisie dans l'algorithme de hachage, nous obtenons toujours la même réponse. Par exemple, John sera toujours 5753a498f025464d72e088a9d5d6e872592d5f91.
- Si même une petite partie de l'entrée change, la sortie change complètement.
- Il n'existe pas de moyen facile d'inverser l'algorithme. Le mieux qu'un attaquant puisse faire est d'essayer toutes les entrées possibles et de vérifier si elles produisent le bon hachage. Par exemple, pour l'algorithme SHA256, une attaque par force brute devrait effectuer 2^256 tentatives pour générer les données initiales. C'est plus que le nombre d'atomes de l'univers !
Dans le cas de l'hôpital décrit ci-dessus, une solution serait de produire un hachage basé sur certaines des informations d'origine et de l'envoyer avec les données anonymisées. L'hôpital recevra de l'équipe de recherche de l'université un diagnostic pour chaque personne figurant dans l'ensemble de données, mais les informations d'identité de la personne n'ont jamais été partagées avec l'université, uniquement son hachage. L'hôpital peut désormais identifier les personnes dont le diagnostic est positif afin de les informer. Notez que seul le propriétaire de l'ensemble de données non anonymisé d'origine (dans ce cas, l'hôpital) peut effectuer une telle opération car le hachage lui-même ne peut pas être inversé.
Avec MakeYourData, cette anonymisation et ce hachage peuvent être effectués en quelques clics. Nous décrivons le processus ci-dessous :
1. Chargez vos données dans MakeYourData. Les données peuvent être au format texte délimité ou provenir de plusieurs bases de données, notamment SQLServer, Oracle et Snowflake.

2. Configurez l'anonymisation. Dans ce cas, nous supprimerons simplement toutes les informations sur le patient qui ne sont pas nécessaires pour obtenir un diagnostic. Par exemple, le nom et l'adresse du patient ne sont pas nécessaires. Seules les informations médicales sont nécessaires. De cette façon, nous pouvons être sûrs que le patient ne peut pas être identifié par l'équipe de recherche externe.

3. L'hôpital doit toutefois être en mesure d'identifier les personnes figurant dans les données. Pour cela, nous demanderons à MakeYourData d'ajouter un hash :

Le jeu de données généré ressemble à ce qui suit :

Le hachage est calculé pour chaque individu et contient suffisamment d'informations pour retracer les données d'origine si l'un d'eux a l'ensemble de données original à portée de main.
Cependant, si un hachage est basé sur un petit ensemble d'éléments, on peut raisonnablement le forcer en essayant tous les éléments. Par exemple, si le hachage est basé sur des noms de personnes, vous pourriez trouver une liste des 10 000 noms les plus populaires et les essayer tous très rapidement. Dans certains cas, cela a déjà été fait par d'autres pirates informatiques.
MakeYourData fournit des étapes pour rendre le processus de hachage encore plus sécurisé en introduisant du bruit aléatoire et des mots de passe lors de la création du hachage.
Hachage avec du sel
Le bruit aléatoire ajouté à un hash est également appelé « sel ». L'ajout de « sel » améliore la sécurité des hachages en ajoutant du bruit au moment de la création du hachage. Dans notre exemple ci-dessus, cela garantit que le fait d'essayer des noms ne donnera jamais le hachage correct car le bruit est absent et même une petite différence entraîne des hachages complètement différents.
Hachage avec mots de passe
L'ajout d'un mot de passe améliore la sécurité en rendant le décodage du tiret très difficile. De plus, il peut faire office de signature lors du décodage des données. Seule la personne possédant le mot de passe peut recalculer les hachages et donc faire correspondre la ligne à la ligne d'origine.
Conclusion
Le hachage est une technique puissante qui permet l'anonymisation tout en préservant la transparence de manière sécurisée. MakeYourData met en œuvre cette technique et la rend facilement accessible aux utilisateurs finaux professionnels afin de leur permettre de partager leurs données et d'en tirer le meilleur parti. Si vous souhaitez en savoir plus et télécharger votre essai gratuit pour tester MKYD de première main, visitez www.argusa.ch/mkyd ou contactez-nous à info@argusa.ch.
Avec l'utilisation croissante des données personnelles dans les processus, qu'il s'agisse des affaires, du marketing, de la santé ou de l'éducation, etc., la confidentialité des données devient une question clé pour les entreprises, les universités, les instituts de recherche et les gouvernements. L'anonymisation des données constitue un moyen relativement sûr d'utiliser les données sans compromettre la vie privée d'une personne. Cependant, dans le même temps, il existe une demande accrue de transparence dans ces processus. Dans ce contexte, l'anonymisation et la transparence apparaissent comme des concepts opposés, mais il est souvent nécessaire de les combiner.
Imaginons le cas d'un hôpital qui souhaite partager les données de ses patients avec une université qui teste un diagnostic expérimental. L'hôpital souhaite clairement préserver la confidentialité des informations relatives à ses patients. Cependant, si le diagnostic fourni par les recherches de l'université est positif, l'hôpital souhaiterait être en mesure d'identifier les patients concernés afin de pouvoir les informer.
Cet article résume comment MakeYourData, un logiciel d'anonymisation, réalise cette combinaison apparemment impossible en utilisant le hachage.
Le hachage est le processus de conversion d'une chaîne de caractères en une autre chaîne de caractères, souvent de longueur fixe. Par exemple, en utilisant l'algorithme de hachage SHA1 :
- Jean → 5753a498f025464d72e088a9d5d6e872592d5f91
- Marie → 94f85995c7492eec546c321821aa4beca9a3e2b1.
Ces chaînes apparemment aléatoires possèdent des propriétés très spécifiques, notamment :
- Lorsqu'une entrée spécifique est saisie dans l'algorithme de hachage, nous obtenons toujours la même réponse. Par exemple, John sera toujours 5753a498f025464d72e088a9d5d6e872592d5f91.
- Si même une petite partie de l'entrée change, la sortie change complètement.
- Il n'existe pas de moyen facile d'inverser l'algorithme. Le mieux qu'un attaquant puisse faire est d'essayer toutes les entrées possibles et de vérifier si elles produisent le bon hachage. Par exemple, pour l'algorithme SHA256, une attaque par force brute devrait effectuer 2^256 tentatives pour générer les données initiales. C'est plus que le nombre d'atomes de l'univers !
Dans le cas de l'hôpital décrit ci-dessus, une solution serait de produire un hachage basé sur certaines des informations d'origine et de l'envoyer avec les données anonymisées. L'hôpital recevra de l'équipe de recherche de l'université un diagnostic pour chaque personne figurant dans l'ensemble de données, mais les informations d'identité de la personne n'ont jamais été partagées avec l'université, uniquement son hachage. L'hôpital peut désormais identifier les personnes dont le diagnostic est positif afin de les informer. Notez que seul le propriétaire de l'ensemble de données non anonymisé d'origine (dans ce cas, l'hôpital) peut effectuer une telle opération car le hachage lui-même ne peut pas être inversé.
Avec MakeYourData, cette anonymisation et ce hachage peuvent être effectués en quelques clics. Nous décrivons le processus ci-dessous :
1. Chargez vos données dans MakeYourData. Les données peuvent être au format texte délimité ou provenir de plusieurs bases de données, notamment SQLServer, Oracle et Snowflake.

2. Configurez l'anonymisation. Dans ce cas, nous supprimerons simplement toutes les informations sur le patient qui ne sont pas nécessaires pour obtenir un diagnostic. Par exemple, le nom et l'adresse du patient ne sont pas nécessaires. Seules les informations médicales sont nécessaires. De cette façon, nous pouvons être sûrs que le patient ne peut pas être identifié par l'équipe de recherche externe.

3. L'hôpital doit toutefois être en mesure d'identifier les personnes figurant dans les données. Pour cela, nous demanderons à MakeYourData d'ajouter un hash :

Le jeu de données généré ressemble à ce qui suit :

Le hachage est calculé pour chaque individu et contient suffisamment d'informations pour retracer les données d'origine si l'un d'eux a l'ensemble de données original à portée de main.
Cependant, si un hachage est basé sur un petit ensemble d'éléments, on peut raisonnablement le forcer en essayant tous les éléments. Par exemple, si le hachage est basé sur des noms de personnes, vous pourriez trouver une liste des 10 000 noms les plus populaires et les essayer tous très rapidement. Dans certains cas, cela a déjà été fait par d'autres pirates informatiques.
MakeYourData fournit des étapes pour rendre le processus de hachage encore plus sécurisé en introduisant du bruit aléatoire et des mots de passe lors de la création du hachage.
Hachage avec du sel
Le bruit aléatoire ajouté à un hash est également appelé « sel ». L'ajout de « sel » améliore la sécurité des hachages en ajoutant du bruit au moment de la création du hachage. Dans notre exemple ci-dessus, cela garantit que le fait d'essayer des noms ne donnera jamais le hachage correct car le bruit est absent et même une petite différence entraîne des hachages complètement différents.
Hachage avec mots de passe
L'ajout d'un mot de passe améliore la sécurité en rendant le décodage du tiret très difficile. De plus, il peut faire office de signature lors du décodage des données. Seule la personne possédant le mot de passe peut recalculer les hachages et donc faire correspondre la ligne à la ligne d'origine.
Conclusion
Le hachage est une technique puissante qui permet l'anonymisation tout en préservant la transparence de manière sécurisée. MakeYourData met en œuvre cette technique et la rend facilement accessible aux utilisateurs finaux professionnels afin de leur permettre de partager leurs données et d'en tirer le meilleur parti. Si vous souhaitez en savoir plus et télécharger votre essai gratuit pour tester MKYD de première main, visitez www.argusa.ch/mkyd ou contactez-nous à info@argusa.ch.
