La gestión del dato y, por tanto, la calidad de los datos es un aspecto crítico para los profesionales del Big Data. Porque cualquier error en calidad de datos, puede desembocar a la toma de decisiones erróneas al haber extraído mal los datos del sistema en uso de Business intelligence.
Para no llegar hasta este punto, es fundamental el realizar una auditoría inicial de todos los datos, con el objetivo de averiguar en qué estado se encuentran estos y detectar posibles errores a corregir. A su vez, se debería también determinar los parámetros de control que ayudarán a medir el avance en los procesos de calidad.
¿Cuáles son los parámetros de calidad de datos?
Dichos parámetros son conocidos como las seis dimensiones de calidad:
- Completitud: todos los datos son relevantes
- Conformidad: los datos que están en los campos de la tabla deben tener un formato estándar y legible
- Consistencia: evitar la información contradictoria
- Exactitud: es necesario que los datos sean precisos
- Duplicación: saber si la misma información se tiene en formatos iguales
- Integridad: ordenar toda la información relevante en un registro presente para poder utilizarla
La gestión de la calidad de los datos en el tiempo
Para gestionar los datos es muy importante distribuir cada acción en su debido tiempo. Normalmente estos son los pasos a seguir:
- Descubrir: identificar y medir la calidad de los datos
- Perfilar: definir las reglas y objetivos de calidad de los datos
- Limpiar: diseñar procesos de mejora de calidad
- Match: matcheo de información y estadísticas
- Consolidar: implementar los procesos de mejora de calidad
- Monitorizar: hacer seguimientos de la calidad de los datos y compararlo siempre con los objetivos fijados previamente
+info: www.decidata.es