Que sont les données synthétiques ? Une définition pour les spécialistes du marketing numérique

Les données synthétiques font référence à des données générées artificiellement qui imitent les caractéristiques des données du monde réel sans contenir d'informations réelles provenant d'individus ou d'événements réels.

Ces données artificielles sont créées à l'aide d'algorithmes ou de modèles pour reproduire les propriétés statistiques, les modèles et les distributions trouvés dans des ensembles de données authentiques. Les données synthétiques et les données originales devraient fournir des résultats similaires à partir d'analyses statistiques.

Les données synthétiques peuvent être utilisées à la place des données du monde réel lorsque ces données ne sont pas facilement disponibles ou dans le cas d'expériences où les données simulent le monde réel dans une expérience contrôlée. Dans le domaine de la mesure de l’efficacité du marketing et des médias, les données synthétiques peuvent être un outil précieux à diverses fins en raison de leur grande ressemblance avec les données du monde réel.

Qu’est-ce que les données synthétiques en marketing ?

Les données synthétiques ont leur utilité en marketing, comme à de nombreuses autres fins où l’analyse statistique est importante. En fait, il existe un grand nombre de domaines dans lesquels les données synthétiques peuvent soutenir de meilleures décisions marketing, mais en particulier, les données synthétiques ont pris tout leur sens à la fois dans la modélisation du mix média et dans les tests d'incrémentalité dans le domaine général de la mesure de l'efficacité marketing.

Les données synthétiques sont si utiles dans ce domaine en raison de la nature des contraintes de données imposées aux ensembles de données marketing pour protéger la vie privée des consommateurs individuels. Cela signifie que les tests des canaux multimédias et des plates-formes doivent être effectués sans utiliser de cookies de navigateur ni d'identifiants d'appareil. L'utilisation de données synthétiques signifie également que des tactiques plus anciennes telles que la « correspondance de marché » ne doivent plus être un problème pour contrôler les tests A/B des expositions médiatiques.

Données synthétiques et tests d’incrémentalité

Dans les tests d'incrémentalité, en particulier dans ce type d'analyse causale, des données synthétiques peuvent être créées pour servir de contrôle pour une expérience médiatique.

A LIRE :  Outil gratuit de génération de liens Mailto : (aucune connexion ni inscription requise)

Une expérience médiatique typique pourrait consister à tester l’incrémentalité d’une nouvelle campagne ou d’un nouveau canal de publicité numérique, la méthodologie consistant généralement à tester A/B les expositions dans deux zones géographiques différentes, similaires. C’est ce qu’on appelle « l’appariement du marché ».

Avec le luxe de données synthétiques, en particulier celles construites à partir d'un modèle à long terme parfaitement « adapté » aux données réelles, l'expérience peut en réalité être menée dans la même zone géographique, entre les observations réelles et les données de contrôle synthétiques. En cours de vol, le modèle, qui prédit également des valeurs pour d'autres zones géographiques, peut être constamment vérifié et ajusté pour un excellent « ajustement », ajoutant ainsi une rigueur statistique au processus.

Ces tests peuvent ensuite produire les ensembles de données pertinents pour l'analyse statistique, et les mesures de confiance statistique peuvent être appliquées comme elles le seraient par rapport à l'ensemble de données, quelle que soit la manière dont il a été généré.

L’effet ici est que moins de zones géographiques sont confrontées à des perturbations pendant le test et que les défis liés à l’adéquation du marché sont supprimés. L'appariement des marchés est toujours un défi car il peut y avoir une fuite des participants entre les marchés, et il n'y a pas deux marchés égaux et peuvent ne pas rester égaux pendant la durée du test. Avec les données synthétiques, les externalités sont prises en compte dans le modèle dans la plupart des cas, et il y a toujours une analyse post-campagne pour vérifier la confiance dans les résultats qui doivent être pris en compte lors de la synthèse des informations.

À l’instar des tests d’incrémentalité, la modélisation du mix média bénéficie également de données synthétiques. Cela peut être dû à plusieurs raisons, telles que l'augmentation des données, l'extrapolation et lors de la prévision.

Les modèles de mix média consomment de grandes quantités de données et génèrent les meilleurs résultats lorsqu’ils sont fournis avec ces ensembles de données pendant de nombreuses années. Il arrive souvent que toutes les données ne soient pas disponibles ou complètes pour ces périodes. Un avertissement doit être donné : seuls des consultants expérimentés doivent effectuer ce travail, mais des lacunes dans les données ou des extrapolations historiques sont acceptables dans certains cas, afin de compléter l'ensemble de données et de garantir que les contributions des canaux sont plus précises que si les données avaient été laissées. manquant.

A LIRE :  Escroqueries Google Chat - Comment s'en protéger ?

Si, en raison du manque de données réelles disponibles, trop de données synthétiques sont utilisées pour alimenter le modèle, il existe un risque très élevé de surajustement du modèle en raison d'un nombre accru de paramètres du modèle. Ce surajustement entraîne des prédicteurs de canal inefficaces en raison du modèle imitant le bruit et non la fréquence de la variable dépendante.

La modélisation du mix média produit également elle-même des données synthétiques, dans la mesure où les contributions qu'elle génère sont conçues pour reproduire les rapports de contribution réels issus des investissements dans les canaux médiatiques. Cela est particulièrement vrai lorsque les modèles de mix média sont utilisés pour prédire les résultats des nouveaux budgets et mix d’investissements médias à l’avenir.

Conclusion

Les données synthétiques font déjà des vagues dans le marketing numérique, comme dans le domaine plus large des statistiques depuis un certain temps déjà. Une lecture de suivi que je recommanderais est celle de Mark Ritson sur la façon dont les données synthétiques sont incroyablement précises dans les prédictions de la cartographie perceptuelle des attributs de la marque. Il n'est pas très difficile de voir comment, à l'avenir, ce type d'apprentissage artificiel renforcé pourrait peut-être être appliqué à la segmentation, au ciblage et au positionnement, ou à l'équilibrage d'un mix de canaux de marketing, ou même aux chiffres de part de voix effective (« ESOV »). .

D’ici là, j’espère que cette introduction à la signification des « données synthétiques » pour les spécialistes du marketing aura été utile.