Con l’espressione “Data Cleaning” si va a definire il processo di ripulitura, correzione e normalizzazione di dati, non scritti correttamente, corrotti, incompleti, duplicati, errati, inseriti all’interno di un set o un database di riferimento.
Tale processo è particolarmente utile in quanto, molto spesso, l’inutilizzabilità dei dati è dovuta ad errori di immissione da parte degli utenti o alla loro incompletezza.
L’attività di Data Cleaning è legata a quella di Data Activation, in quanto può essere considerata la base di partenza per efficaci attività di marketing con approccio data driven.
Il problema della correttezza e dell’interezza dei dati raccolti, oggi, infatti, è piuttosto frequente soprattutto quando si integrano dati ed informazioni raccolti su più canali e più sorgenti.
Esistono tuttavia una serie di tecniche che permettono di rilevare, in modo automatico, il “rumore” presente nei dati al fine di normalizzarli.
Tali tecniche possono essere raccolte in due macrofiloni:
- approccio schema level con il quale si cerca di creare una corrispondenza tra diverse strutture di file o database, sfruttandone le somiglianze definite (es: merging di due tabelle);
- approccio instance-level attraverso il quale si cerca di individuare metriche per valutare la somiglianza di item presenti al fine di creare sottogruppi i cui item fanno riferimento alla medesima entità (immaginiamo di aver per il sig. Francesco Rossi, più dati non corretti come “Franci Rossi” , “Francghesco Rossi”…).
I software di Data Clening spesso utilizzano una combinazione tra i due e permettono di normalizzare i dati al meglio al fine di utilizzarli anche per efficaci strategie di marketing automation.