L’expression Data Cleaning définit le processus de nettoyage, de correction et de normalisation des données, non écrites correctement, corrompues, incomplètes, dupliquées, incorrectes, insérées dans un jeu de référence ou une base de données.
Ce processus est particulièrement utile car, très souvent, l’inexploitabilité des données est due à des erreurs de saisie par les utilisateurs ou à leur incomplétude.
L’activité Data Cleaning est liée à celle de Data Activation, car elle peut être considérée comme le point de départ d’activités marketing efficaces avec une approche data-driven.
Le problème de l’exactitude et de l’exhaustivité des données collectées, aujourd’hui, en effet, est assez fréquent, en particulier lors de l’intégration de données et d’informations collectées sur de multiples canaux et sources multiples.
Cependant, il existe un certain nombre de techniques qui permettent de détecter automatiquement le « bruit » présent dans les données afin de les normaliser.
Ces techniques peuvent être regroupées en deux macro-volets :
- approche au niveau du schéma avec laquelle nous essayons de créer une correspondance entre différentes structures de fichiers ou de bases de données, en exploitant les similitudes définies (par exemple : fusion de deux tables) ;
- approche au niveau de l’instance par laquelle nous essayons d’identifier des métriques pour évaluer la similitude des éléments présents afin de créer des sous-groupes dont les éléments font référence à la même entité (imaginons que nous ayons pour M. Francesco Rossi, ainsi que des données incorrectes telles que « Franci Rossi » , « Francghesco Rossi »…).
Le logiciel Data Clening utilise souvent une combinaison des deux et vous permet de normaliser les données de la meilleure façon possible afin de les utiliser pour des stratégies de marketing automation efficaces.