El término Data Cleaning (limpieza de datos) se utiliza para definir el proceso de limpieza, corrección y normalización de datos incorrectos, corruptos, incompletos, duplicados o erróneos introducidos en un conjunto de referencia o base de datos.
Este proceso es especialmente útil ya que, muy a menudo, los datos inutilizables se deben a errores de introducción por parte del usuario o a que están incompletos.
El Data Cleaning está vinculada a la activación de datos, ya que puede considerarse el punto de partida de actividades de marketing eficaces con un enfoque basado en los datos.
El problema de la corrección e integridad de los datos recogidos es, de hecho, bastante común hoy en día, especialmente cuando se integran datos e información recogidos de múltiples canales y múltiples fuentes.
No obstante, existen varias técnicas que permiten detectar automáticamente el «ruido» de los datos para normalizarlos.
Estas técnicas pueden agruparse en dos macrofilosofías:
- enfoque a nivel de esquema: por el que se intenta crear una correspondencia entre diferentes estructuras de archivos o bases de datos explotando sus similitudes definidas (por ejemplo, fusionando dos tablas);
- enfoque a nivel de instancia: mediante el cual se intenta identificar métricas para evaluar la similitud de los elementos presentes con el fin de crear subgrupos cuyos elementos se refieran a la misma entidad (imaginemos que tenemos para el Sr. Francesco Rossi, datos más incorrectos como «Franci Rossi» Francghesco Rossi»).
El software de clonación de datos suele utilizar una combinación de ambos y permite normalizar los datos para utilizarlos también en estrategias eficaces de automatización del marketing.