Données synthétiques : générez artificiellement des données réalistes

March 30, 2026
June 2, 2022
5
min read

Les données synthétiques constituent une nouvelle tendance qui émerge dans le monde de l'analytique. Il s'agit de données créées artificiellement, dont les propriétés clés sont souvent injectées avec précision. Plusieurs entreprises ont été créées ces dernières années autour du thème des données synthétiques et Gartner estime que celles-ci atteindront bientôt la fin du hype-cycle (voir figure).

Dans cet article, nous présenterons les données synthétiques, puis nous nous concentrerons sur les données synthétiques structurées, leurs types et les cas d'utilisation correspondants. Enfin, nous allons vous montrer comment l'outil MakeYourData les implémente toutes.

Qu'est-ce que les données synthétiques et pourquoi les utiliser

Les données synthétiques sont des données générées artificiellement et conçues pour avoir des propriétés spécifiques. Il est donc généré par un analyste ou un développeur plutôt que par un véritable processus. Les données synthétiques répondent à de nombreux objectifs, allant de l'amélioration d'une application à l'activation du partage de données. Nous rapportons ici deux exemples remarquables.

Les cas d'utilisation des données synthétiques ont fait leurs preuves dans l'industrie automobile, en particulier dans le développement de voitures autonomes. Dans ce contexte, les situations artificielles, qui sont une forme de données visuelles synthétiques, sont utilisées pour apprendre aux voitures à mieux se conduire dans des situations qui ne se produisent pas souvent dans la réalité ou qui ne peuvent pas se produire uniquement à des fins d'apprentissage. Par exemple, vous ne pouvez pas demander à de vraies personnes de s'opposer volontairement à une voiture pour simuler le risque de la renverser et ainsi améliorer la réaction de la voiture.

Le CERN, le centre de recherche nucléaire de Genève, a été le pionnier des techniques de données synthétiques. Le centre de recherche utilise des détecteurs incroyablement complexes et, pour extraire des résultats, il doit connaître leurs effets en détail. C'est pour cette raison que Techniques de Monte-Carlo, qui sont une forme de génération de données synthétiques, sont utilisés pour simuler les détecteurs et leur effet sur les particules. Les simulations produisent le même type de données que les détecteurs réels, avec l'avantage que nous connaissons les paramètres et les conditions de la simulation et que nous pouvons donc comparer les entrées et les sorties pour mesurer l'effet des détecteurs.

Dans les sections suivantes, nous nous concentrerons sur les données synthétiques structurées sous forme de tableau.

Types de données synthétiques structurées et cas d'utilisation

Les cas d'utilisation des données synthétiques structurées sont variés. Elles peuvent aller de l'anonymisation d'ensembles de données à des tests. En outre, il existe plusieurs techniques différentes pour générer des données, chacune étant la mieux adaptée à différents cas d'utilisation. Cette section vous donne un aperçu des techniques et des cas d'utilisation correspondants.

Les modèles permettant de générer des données synthétiques peuvent aller de complètement définis par l'utilisateur à des modèles partiellement ou complètement appris en s'inspirant de jeux de données existants. Il existe (au moins) 3 classes de techniques de données synthétiques structurées, selon la façon dont elles génèrent les données et le niveau d'intervention humaine : basées sur des règles, générées statistiquement, générées par l'IA. Décrivons ces classes et quelques cas d'utilisation typiques.

Données synthétiques basées sur des règles

Les données synthétiques basées sur des règles sont des données générées par un ensemble de règles prédéfinies. Par exemple, si vous souhaitez générer un ensemble de données RH avec les employés et les dates d'embauche, vous pouvez utiliser les règles suivantes :

  • Extraire le nom de l'employé au hasard d'une liste de noms
  • Attribuer une date d'embauche dans une fourchette donnée
  • Attribuez une date de fin plus récente que la date d'embauche et selon une durée moyenne d'un an
  • Générez un salaire réparti selon la moyenne de l'entreprise

Cette méthode vous permet d'avoir un contrôle total sur les conditions dans lesquelles les données sont générées. Il permet également de commencer à générer sans aucun jeu de données en entrée et, pour cette raison, il est également appelé « données synthétiques pures ».

Cas d'utilisation

Prototypage: Les applications, par exemple les applications mobiles ou les tableaux de bord de business intelligence, ont besoin de données en entrée. En fait, dans notre monde numérique moderne, la plupart des applications ont besoin de données en entrée. Cependant, il se peut que les données réelles n'existent pas encore pour commencer à développer l'application ou qu'elles ne soient pas utilisables en raison de contraintes de confidentialité. Cela entraînerait des retards et des coûts cachés. Les données synthétiques peuvent être utilisées pour combler cette lacune et démarrer rapidement le prototypage.

Démos: Toute entreprise qui produit des applications doit prouver leur valeur, ce qui se fait souvent par le biais de démonstrations de produits. Les données sont souvent nécessaires pour faire fonctionner les applications et les données réelles peuvent ne pas être utilisables pour des raisons de confidentialité ou de contraintes réglementaires. Les données synthétiques peuvent à nouveau venir à la rescousse et combler le vide.

Données synthétiques générées statistiquement

Dans ce cas, les données synthétiques sont générées à partir d'un jeu de données existant. Un modèle est créé qui distille les propriétés statistiques de l'ensemble de données qui sont ensuite utilisées pour générer de nouvelles données.

En reprenant l'exemple des ressources humaines, nous pourrions partir de la base de données d'un employé existant et utiliser cet ensemble de données pour déterminer la durée moyenne d'ancienneté et le salaire moyen pour différents postes, puis utiliser ces informations pour générer des données normalement distribuées autour de ces valeurs.

Cas d'utilisation

Tests: Les applications doivent également être testées pour détecter les comportements indésirables et détecter les erreurs avant leur mise en ligne. Les données synthétiques peuvent être utiles en reproduisant des ensembles de données réels mais en ajoutant des erreurs artificielles ou des incohérences.

Augmenter le volume: Un autre type de test est le « test de charge », qui consiste à explorer le comportement de l'application en cas de stress. Cela se traduit souvent par de grands ensembles de données d'entrée. Les données synthétiques peuvent contribuer à augmenter le volume de données tout en conservant une apparence réaliste.

Anonymisation: la frontière entre l'anonymisation et les données synthétiques est ténue. L'anonymisation des ensembles de données peut être considérée comme la génération de nouvelles données avec des propriétés similaires à celles d'origine, mais dont les caractéristiques clés sont masquées ou masquées. Cette définition est très similaire à celle que nous venons de donner des données synthétiques générées statistiquement. En d'autres termes, si les règles statistiques sont suffisamment strictes, les données synthétiques peuvent être considérées comme une forme d'anonymisation.

Données synthétiques générées par l'IA

Les données générées par l'intelligence artificielle et l'apprentissage automatique sont la version extrême des données générées statistiquement. La différence est que le modèle n'est pas prédéfini par l'utilisateur, mais qu'il est appris automatiquement par l'algorithme.

Les avantages de ce type de génération de données sont que le modèle peut être plus flexible et, en même temps, s'il s'agit d'un bon modèle, il doit respecter intrinsèquement toutes les corrélations entre les variables.

Cas d'utilisation

Apprentissage automatique: L'apprentissage automatique nécessite de grands ensembles de données pour entraîner les modèles. Dans de nombreux cas, ces données ne sont pas disponibles. Par exemple, dans le domaine de la détection des fraudes ou d'autres formes de détection d'anomalies, les événements sont (espérons-le) suffisamment rares pour ne pas être suffisants pour entraîner un modèle. Dans ces cas, des données synthétiques peuvent être utilisées pour augmenter le volume de l'ensemble de données d'entraînement. Si vous souhaitez utiliser des données synthétiques pour entraîner votre modèle, les données générées doivent être très bien adaptées à l'original, dans une mesure que seules les données générées par l'IA peuvent garantir.

Anonymisation: Encore une fois, cette technique peut être utilisée comme une forme d'anonymisation. Les chercheurs ont souvent besoin d'accéder à des ensembles de données confidentiels. D'autre part, pour pouvoir tirer des conclusions de haut niveau, ils ne se soucient souvent pas des individus mais des propriétés statistiques de l'ensemble de données. Supprimer les noms et autres identifiants n'est souvent pas suffisant, car une personne peut être identifiée par la combinaison exacte de ses mensurations. Dans ce cas, les données synthétiques peuvent être utiles en remplaçant entièrement l'ensemble de données d'origine. Dans ce cas également, comme l'objectif est une analyse approfondie, l'IA est la seule méthode qui donne une représentation suffisamment bonne des données initiales tout en garantissant un anonymat total.

Créez vos données: synthétisez vos données selon vos besoins

Avez-vous trouvé ce sujet intéressant ? Pensez-vous que votre organisation dispose de cas d'utilisation des données synthétiques ? Chez Argusa, nous avons développé l'outil pour vous. Créez vos données est un logiciel qui permet de mettre en œuvre tous les cas d'utilisation décrits ci-dessus sans connaissances en programmation. Si vous souhaitez en savoir plus, veuillez visiter notre site Web à www.argusa.ch/mkyd ou contactez-nous à info@argusa.ch. Vous pouvez également nous suivre sur LinkedIn et surveillez notre blogs et webinaires sur les données synthétiques et MKYD.

Webinaires - Découvrez MKYD avec Argusa

Si vous souhaitez en savoir plus sur MKYD, participez à une série de webinaires animés par Team Argusa ! Le premier à propos de l'utilisation MKYD pour les tests et le prototypage se déroule le Mardi 21 juin. Pour vous inscrire et en savoir plus, rendez-vous sur https://www.argusa.ch/post/discover-makeyourdata-with-argusa

Analytique d'entreprise
MKYD
Actualités
Analytique d'entreprise
MKYD
Actualités
Analytique d'entreprise
MKYD
Actualités

Les données synthétiques constituent une nouvelle tendance qui émerge dans le monde de l'analytique. Il s'agit de données créées artificiellement, dont les propriétés clés sont souvent injectées avec précision. Plusieurs entreprises ont été créées ces dernières années autour du thème des données synthétiques et Gartner estime que celles-ci atteindront bientôt la fin du hype-cycle (voir figure).

Dans cet article, nous présenterons les données synthétiques, puis nous nous concentrerons sur les données synthétiques structurées, leurs types et les cas d'utilisation correspondants. Enfin, nous allons vous montrer comment l'outil MakeYourData les implémente toutes.

Qu'est-ce que les données synthétiques et pourquoi les utiliser

Les données synthétiques sont des données générées artificiellement et conçues pour avoir des propriétés spécifiques. Il est donc généré par un analyste ou un développeur plutôt que par un véritable processus. Les données synthétiques répondent à de nombreux objectifs, allant de l'amélioration d'une application à l'activation du partage de données. Nous rapportons ici deux exemples remarquables.

Les cas d'utilisation des données synthétiques ont fait leurs preuves dans l'industrie automobile, en particulier dans le développement de voitures autonomes. Dans ce contexte, les situations artificielles, qui sont une forme de données visuelles synthétiques, sont utilisées pour apprendre aux voitures à mieux se conduire dans des situations qui ne se produisent pas souvent dans la réalité ou qui ne peuvent pas se produire uniquement à des fins d'apprentissage. Par exemple, vous ne pouvez pas demander à de vraies personnes de s'opposer volontairement à une voiture pour simuler le risque de la renverser et ainsi améliorer la réaction de la voiture.

Le CERN, le centre de recherche nucléaire de Genève, a été le pionnier des techniques de données synthétiques. Le centre de recherche utilise des détecteurs incroyablement complexes et, pour extraire des résultats, il doit connaître leurs effets en détail. C'est pour cette raison que Techniques de Monte-Carlo, qui sont une forme de génération de données synthétiques, sont utilisés pour simuler les détecteurs et leur effet sur les particules. Les simulations produisent le même type de données que les détecteurs réels, avec l'avantage que nous connaissons les paramètres et les conditions de la simulation et que nous pouvons donc comparer les entrées et les sorties pour mesurer l'effet des détecteurs.

Dans les sections suivantes, nous nous concentrerons sur les données synthétiques structurées sous forme de tableau.

Types de données synthétiques structurées et cas d'utilisation

Les cas d'utilisation des données synthétiques structurées sont variés. Elles peuvent aller de l'anonymisation d'ensembles de données à des tests. En outre, il existe plusieurs techniques différentes pour générer des données, chacune étant la mieux adaptée à différents cas d'utilisation. Cette section vous donne un aperçu des techniques et des cas d'utilisation correspondants.

Les modèles permettant de générer des données synthétiques peuvent aller de complètement définis par l'utilisateur à des modèles partiellement ou complètement appris en s'inspirant de jeux de données existants. Il existe (au moins) 3 classes de techniques de données synthétiques structurées, selon la façon dont elles génèrent les données et le niveau d'intervention humaine : basées sur des règles, générées statistiquement, générées par l'IA. Décrivons ces classes et quelques cas d'utilisation typiques.

Données synthétiques basées sur des règles

Les données synthétiques basées sur des règles sont des données générées par un ensemble de règles prédéfinies. Par exemple, si vous souhaitez générer un ensemble de données RH avec les employés et les dates d'embauche, vous pouvez utiliser les règles suivantes :

  • Extraire le nom de l'employé au hasard d'une liste de noms
  • Attribuer une date d'embauche dans une fourchette donnée
  • Attribuez une date de fin plus récente que la date d'embauche et selon une durée moyenne d'un an
  • Générez un salaire réparti selon la moyenne de l'entreprise

Cette méthode vous permet d'avoir un contrôle total sur les conditions dans lesquelles les données sont générées. Il permet également de commencer à générer sans aucun jeu de données en entrée et, pour cette raison, il est également appelé « données synthétiques pures ».

Cas d'utilisation

Prototypage: Les applications, par exemple les applications mobiles ou les tableaux de bord de business intelligence, ont besoin de données en entrée. En fait, dans notre monde numérique moderne, la plupart des applications ont besoin de données en entrée. Cependant, il se peut que les données réelles n'existent pas encore pour commencer à développer l'application ou qu'elles ne soient pas utilisables en raison de contraintes de confidentialité. Cela entraînerait des retards et des coûts cachés. Les données synthétiques peuvent être utilisées pour combler cette lacune et démarrer rapidement le prototypage.

Démos: Toute entreprise qui produit des applications doit prouver leur valeur, ce qui se fait souvent par le biais de démonstrations de produits. Les données sont souvent nécessaires pour faire fonctionner les applications et les données réelles peuvent ne pas être utilisables pour des raisons de confidentialité ou de contraintes réglementaires. Les données synthétiques peuvent à nouveau venir à la rescousse et combler le vide.

Données synthétiques générées statistiquement

Dans ce cas, les données synthétiques sont générées à partir d'un jeu de données existant. Un modèle est créé qui distille les propriétés statistiques de l'ensemble de données qui sont ensuite utilisées pour générer de nouvelles données.

En reprenant l'exemple des ressources humaines, nous pourrions partir de la base de données d'un employé existant et utiliser cet ensemble de données pour déterminer la durée moyenne d'ancienneté et le salaire moyen pour différents postes, puis utiliser ces informations pour générer des données normalement distribuées autour de ces valeurs.

Cas d'utilisation

Tests: Les applications doivent également être testées pour détecter les comportements indésirables et détecter les erreurs avant leur mise en ligne. Les données synthétiques peuvent être utiles en reproduisant des ensembles de données réels mais en ajoutant des erreurs artificielles ou des incohérences.

Augmenter le volume: Un autre type de test est le « test de charge », qui consiste à explorer le comportement de l'application en cas de stress. Cela se traduit souvent par de grands ensembles de données d'entrée. Les données synthétiques peuvent contribuer à augmenter le volume de données tout en conservant une apparence réaliste.

Anonymisation: la frontière entre l'anonymisation et les données synthétiques est ténue. L'anonymisation des ensembles de données peut être considérée comme la génération de nouvelles données avec des propriétés similaires à celles d'origine, mais dont les caractéristiques clés sont masquées ou masquées. Cette définition est très similaire à celle que nous venons de donner des données synthétiques générées statistiquement. En d'autres termes, si les règles statistiques sont suffisamment strictes, les données synthétiques peuvent être considérées comme une forme d'anonymisation.

Données synthétiques générées par l'IA

Les données générées par l'intelligence artificielle et l'apprentissage automatique sont la version extrême des données générées statistiquement. La différence est que le modèle n'est pas prédéfini par l'utilisateur, mais qu'il est appris automatiquement par l'algorithme.

Les avantages de ce type de génération de données sont que le modèle peut être plus flexible et, en même temps, s'il s'agit d'un bon modèle, il doit respecter intrinsèquement toutes les corrélations entre les variables.

Cas d'utilisation

Apprentissage automatique: L'apprentissage automatique nécessite de grands ensembles de données pour entraîner les modèles. Dans de nombreux cas, ces données ne sont pas disponibles. Par exemple, dans le domaine de la détection des fraudes ou d'autres formes de détection d'anomalies, les événements sont (espérons-le) suffisamment rares pour ne pas être suffisants pour entraîner un modèle. Dans ces cas, des données synthétiques peuvent être utilisées pour augmenter le volume de l'ensemble de données d'entraînement. Si vous souhaitez utiliser des données synthétiques pour entraîner votre modèle, les données générées doivent être très bien adaptées à l'original, dans une mesure que seules les données générées par l'IA peuvent garantir.

Anonymisation: Encore une fois, cette technique peut être utilisée comme une forme d'anonymisation. Les chercheurs ont souvent besoin d'accéder à des ensembles de données confidentiels. D'autre part, pour pouvoir tirer des conclusions de haut niveau, ils ne se soucient souvent pas des individus mais des propriétés statistiques de l'ensemble de données. Supprimer les noms et autres identifiants n'est souvent pas suffisant, car une personne peut être identifiée par la combinaison exacte de ses mensurations. Dans ce cas, les données synthétiques peuvent être utiles en remplaçant entièrement l'ensemble de données d'origine. Dans ce cas également, comme l'objectif est une analyse approfondie, l'IA est la seule méthode qui donne une représentation suffisamment bonne des données initiales tout en garantissant un anonymat total.

Créez vos données: synthétisez vos données selon vos besoins

Avez-vous trouvé ce sujet intéressant ? Pensez-vous que votre organisation dispose de cas d'utilisation des données synthétiques ? Chez Argusa, nous avons développé l'outil pour vous. Créez vos données est un logiciel qui permet de mettre en œuvre tous les cas d'utilisation décrits ci-dessus sans connaissances en programmation. Si vous souhaitez en savoir plus, veuillez visiter notre site Web à www.argusa.ch/mkyd ou contactez-nous à info@argusa.ch. Vous pouvez également nous suivre sur LinkedIn et surveillez notre blogs et webinaires sur les données synthétiques et MKYD.

Webinaires - Découvrez MKYD avec Argusa

Si vous souhaitez en savoir plus sur MKYD, participez à une série de webinaires animés par Team Argusa ! Le premier à propos de l'utilisation MKYD pour les tests et le prototypage se déroule le Mardi 21 juin. Pour vous inscrire et en savoir plus, rendez-vous sur https://www.argusa.ch/post/discover-makeyourdata-with-argusa

By clicking “Accept All Cookies”, you agree to the storing of cookies on your device to enhance site navigation, analyze site usage, and assist in our marketing efforts. View our Privacy Policy for more information.