Análisis de calidad de datos de clientes a partir aprendizaje no supervisado en el sector de consumo.

Abstract

Este trabajo presenta un análisis de la calidad de los datos de clientes en una importante empresa del sector de consumo, utilizando un modelo de aprendizaje no supervisado basado en técnicas de clustering. El análisis se desarrolla en cuatro etapas principales, comenzando con la evaluación inicial de la calidad de los datos mediante la herramienta SAP Information Steward, que sirve como fuente de datos para la implementación del modelo. El estudio se centra en un problema crítico para las empresas: la mala calidad de los datos, la cual genera pérdidas económicas significativas, afecta la credibilidad organizacional y aumenta la insatisfacción de los clientes. Con el objetivo de abordar esta problemática, se propone una metodología para diagnosticar la calidad de los datos de clientes, permitiendo identificar deficiencias y establecer las bases para la implementación de un sistema de gestión de calidad de datos. La metodología presentada combina herramientas estadísticas y modelo de Machine Learning para evaluar y clasificar los datos en función de su calidad. Este enfoque no solo proporciona un diagnóstico claro, sino que también facilita la toma de decisiones estratégicas para optimizar la gestión de los datos y mejorar la efectividad de las operaciones empresariales. Abstract: This work presents an analysis of the quality of customer data in an important company in the consumer sector, using an unsupervised learning model based on clustering techniques. The analysis is carried out in four main stages, starting with the initial assessment of data quality using the SAP Information Steward tool, which serves as the data source for the model implementation. The study focuses on a critical problem for companies: poor data quality, which generates significant economic losses, affects organizational credibility and increases customer dissatisfaction. With the aim of addressing this problem, a methodology is proposed to diagnose the quality of customer data, allowing deficiencies to be identified and the foundations to be established for the implementation of a data quality management system. The methodology presented combines statistical tools and a Machine Learning model to evaluate and classify data based on its quality. This approach not only provides a clear diagnosis, but also facilitates strategic decision making to optimize data management and improve the effectiveness of business operations.

Description

Keywords

Calidad de Datos, Dimensiones de Calidad, Protección de datos, Data Quality, Quality Dimensions, Clustering, SAP Information Steward, Machine Learning, Datos maestros clientes

Citation