Especialización en Big Data

Permanent URI for this collectionhttps://repositorio.pascualbravo.edu.co/handle/pascualbravo/2792

Browse

Recent Submissions

Now showing 1 - 11 of 11
  • Item
    Análisis de calidad de datos de clientes a partir aprendizaje no supervisado en el sector de consumo.
    (2024) Gutiérrez Montes, Oscar Mario; Gomez Miranda, Ingrid Natalia; Briñez de León, Juan Carlos; Fonnegra Tarazona, Rubén Darío; Roldan Colorado, Sebastián Camilo
    Este trabajo presenta un análisis de la calidad de los datos de clientes en una importante empresa del sector de consumo, utilizando un modelo de aprendizaje no supervisado basado en técnicas de clustering. El análisis se desarrolla en cuatro etapas principales, comenzando con la evaluación inicial de la calidad de los datos mediante la herramienta SAP Information Steward, que sirve como fuente de datos para la implementación del modelo. El estudio se centra en un problema crítico para las empresas: la mala calidad de los datos, la cual genera pérdidas económicas significativas, afecta la credibilidad organizacional y aumenta la insatisfacción de los clientes. Con el objetivo de abordar esta problemática, se propone una metodología para diagnosticar la calidad de los datos de clientes, permitiendo identificar deficiencias y establecer las bases para la implementación de un sistema de gestión de calidad de datos. La metodología presentada combina herramientas estadísticas y modelo de Machine Learning para evaluar y clasificar los datos en función de su calidad. Este enfoque no solo proporciona un diagnóstico claro, sino que también facilita la toma de decisiones estratégicas para optimizar la gestión de los datos y mejorar la efectividad de las operaciones empresariales. Abstract: This work presents an analysis of the quality of customer data in an important company in the consumer sector, using an unsupervised learning model based on clustering techniques. The analysis is carried out in four main stages, starting with the initial assessment of data quality using the SAP Information Steward tool, which serves as the data source for the model implementation. The study focuses on a critical problem for companies: poor data quality, which generates significant economic losses, affects organizational credibility and increases customer dissatisfaction. With the aim of addressing this problem, a methodology is proposed to diagnose the quality of customer data, allowing deficiencies to be identified and the foundations to be established for the implementation of a data quality management system. The methodology presented combines statistical tools and a Machine Learning model to evaluate and classify data based on its quality. This approach not only provides a clear diagnosis, but also facilitates strategic decision making to optimize data management and improve the effectiveness of business operations.
  • Item
    MVP para el análisis de reportes de ventas en e-commerce usando Big Data y GenAI en AWS
    (Institución Universitaria Pascual Bravo, 2025) Morales Gil, Alyson; Becerra Botero, Miguel Alberto
    El crecimiento del comercio electrónico ha generado una gran cantidad de datos transaccionales que son poco aprovechados por los pequeños y medianos comerciantes debido a la complejidad de las herramientas analíticas. Este estudio presenta el diseño e implementación de un Mínimo Producto Viable (MVP) para el análisis de reportes de ventas, apoyado en tecnologías de Big Data y Generative AI (GenAI) sobre la nube de Amazon Web Services (AWS). El objetivo es permitir que los dueños de tiendas virtuales puedan consultar, interpretar y actuar sobre sus datos de ventas mediante interacciones en lenguaje natural, sin depender de conocimientos técnicos ni de herramientas de BI complejas. La metodología comprendió cinco fases: diagnóstico de las limitaciones de analítica en e-commerce, integración de datos simulados hacia un data lake (S3 + Glue), diseño de la capa de consulta y visualización con Athena/Redshift y QuickSight, prototipado del módulo GenAI mediante Amazon Bedrock y Amazon Q, y validación funcional del MVP en entorno simulado. Los resultados demuestran que la integración de estas tecnologías habilita reportes dinámicos, narrativas automáticas y recomendaciones funcionales, reduciendo la brecha entre los reportes comunes y las necesidades reales de análisis estratégico. Se concluye que el enfoque propuesto constituye una base viable para escalar soluciones de BI generativa en PYMEs de e-commerce, mejorando su capacidad de toma de decisiones basada en datos. Abstract: The growth of e-commerce has generated a vast amount of transactional data that is underutilized by small- and medium-sized businesses due to the complexity of analytical tools. This study presents the design and implementation of a Minimum Viable Product (MVP) for sales report analysis, supported by Big Data and Generative AI (GenAI) technologies on the Amazon Web Services (AWS) cloud. The goal is to enable online store owners to query, interpret, and act on their sales data through natural language interactions without relying on technical expertise or complex BI tools. There methodology comprised five phases: diagnosing the limitations of e-commerce analytics, integrating simulated data into a data lake (S3 + Glue), designing the query and visualization layer with Athena/Redshift and QuickSight, prototyping the GenAI module using Amazon Bedrock and Amazon Q, and functionally validating the MVP in a simulated environment. The results demonstrate that integrating these technologies enables dynamic reports, automated narratives, and functional recommendations, bridging the gap between standard reports and the actual need for strategic analysis. The proposed approach provides a viable foundation for scaling generative BI solutions in e-commerce SMEs, enhancing their data-driven decision-making capabilities.
  • Item
    Análisis de la percepción de felicidad: un estudio de caso
    (Institución Universitaria Pascual Bravo, 2025) Gonzales Londoño, Laura Vanessa; Becerra Botero, Miguel Alberto
  • Item
    Clasificación de incidentes de seguridad de Microsoft.
    (2025) Giraldo Martinez, Neifer Erney; Becerra Botero, Miguel Alberto
  • Item
    Aplicación de un modelo de regresión logística para predecir inconsistencias en la descarga de información durante el proceso de vinculación de clientes al servicio de energía eléctrica
    (Institución Universitaria Pascual Bravo, 2024) Vélez Quintana, Mateo; Briñez de León, Juan Carlos
    Para una empresa de servicios públicos domiciliarios la vinculación de clientes al servicio de energía eléctrica es un proceso vital en el negocio de la energía eléctrica por lo tanto es necesario garantizar la seguridad y calidad en este proceso. La verificación de solicitudes de conexión al servicio de energía eléctrica toma largos tiempos, es propensa a errores y genera altos costos operativos, además de insatisfacción entre los usuarios. Este proyecto propone el uso de herramientas de Machine Learning para automatizar la identificación de inconsistencias en los cobros de materiales y actividades y creando un modelo que permita predecir inconsistencias, mejorando la eficiencia y eliminando la aleatoriedad en las verificaciones, lo que optimizará recursos, reducirá quejas y fortalecerá la experiencia del cliente. El objetivo general es desarrollar un sistema predictivo que reduzca los tiempos manuales en un 90%, detecte inconsistencias de manera anticipada y permita estrategias de mejora continua. El método incluye la extracción y análisis de datos del sistema transaccional entre enero y octubre de 2024, para crear un modelo que identifique las solicitudes con posibles problemas. El balanceo y análisis de datos atípicos fueron de gran relevancia en el estudio. Aunque modelos como AdaBoostClassifier y XGBClassifier ofrecieron alta precisión, fueron descartados por problemas de sobreajuste. Se elige el modelo basado en Regresión Logistica con un accuracy de 86% ya que se asegura que no esta memorizando.
  • Item
    Modelo predictivo para la elección de proveedores de transporte consolidado de carga (LTL) en Estados Unidos
    (Institución Universitaria Pascual Bravo, 2025) Sánchez Zambrano, Camilo; Becerra Botero, Miguel Alberto
    Este trabajo presenta el desarrollo de un modelo predictivo basado en técnicas de machine learning para evaluar la eficiencia de los transportistas que prestan el servicio de transporte terrestre LTL (Less-Than-Truckload, o carga consolidada). Utilizando datos históricos generados por una empresa intermediaria del sector, se construyó una herramienta capaz de predecir la probabilidad de que una empresa transportista cumpla con la recogida y entrega de un envío dentro de los plazos ofrecidos. El modelo considera variables como el área de servicio de origen y destino, características físicas de la orden (volumen, peso), servicios adicionales requeridos y otros factores operativos. Durante el proceso, se compararon y evaluaron diversos algoritmos de aprendizaje automático, identificando el enfoque más efectivo para la predicción de incumplimientos. La herramienta desarrollada funciona como un sistema de soporte a la decisión para la selección y priorización de proveedores, minimizando retrasos logísticos y mejorando la satisfacción del cliente a través de decisiones informadas y fundamentadas en datos, validadas mediante simulaciones y análisis de desempeño real.
  • Item
    Framework para la administración de activos tecnológicos basado en Big Data
    (Institución Universitaria Pascual Bravo, 2025) Mena Zapata, David Esteban; Becerra Botero, Miguel Alberto
    En la era digital, el manejo eficiente de los activos tecnológicos es fundamental para garantizar la competitividad y sostenibilidad de las empresas. La aplicación de Big Data ha revolucionado la administración de estos activos, permitiendo una gestión basada en datos que optimiza el rendimiento y prolonga su ciclo de vida. En este trabajo presenta un Framework para la implementación de Big Data en la administración de activos tecnológicos en una empresa prestadora de servicios de instalaciones eléctricas. A través del análisis de grandes volúmenes de información, las empresas pueden tomar decisiones estratégicas soportadas en información, reduciendo costos operativos, mejorando la planificación de mantenimiento y anticipando posibles fallos antes de que ocurran. El Framework cuenta con visualizaciones del inventario de activos, ciclos de vida, gestión de asignaciones de recursos tecnológicos, gestión financiera, análisis de riesgos, depreciación y predicción de costos, impactando en la eficiencia operativa, la reducción de tiempos de inactividad y el incremento de la productividad en organizaciones del sector. El Framework propuesto con la integración de Big Data no solo mejora la administración de activos, sino que también aporta valor estratégico a la empresa, facilitando la toma de decisiones y fortaleciendo su posición en el mercado.
  • Item
    Valor agregado de las pruebas saber TyT : una aproximación metodológica desde regresiones lineales
    (Institución Universitaria Pascual Bravo, 2025) Balbín Rondón, Diego Esteban; Becerra Botero, Miguel Alberto
    El trabajo presenta una metodología para estimar el valor agregado (VA) en Colombia haciendo énfasis en la Institución Universitaria Pascual Bravo por medio de las pruebas Saber 11 (línea de base) y Saber TyT (logro de salida). Se implementa un proceso de ETL que unifica más de seis millones de registros, seguido de limpieza de datos, discretización de puntajes mediante “binning” y normalización. El modelo principal es una regresión lineal múltiple con covariables sociodemográficas y académicas, cuyos residuos se interpretan como el VA individual; adicionalmente, un árbol de decisión (CART) explora posibles interacciones no lineales. Los diagnósticos (R² ≈ 0,50, homocedasticidad y normalidad de residuos) respaldan la validez del enfoque lineal.
  • Item
    Predicción de demanda por línea de venta con aprendizaje automático
    (Institución Universitaria Pascual Bravo, 2025) Ospina Rendon, Diego Fernando; Becerra Botero, Miguel Alberto
    Este trabajo se enfoca en el diseño de un sistema de soporte para la toma de decisiones, fundamentado en la predicción de la demanda de productos en una empresa del sector retail dedicada a la comercialización de autopartes. El análisis se orientó a cuatro líneas de venta estratégicas: Línea Diesel, Línea CamperosDicol, Línea Rodamientos y Línea Tamayo. Se desarrolló un proceso integral que incluyó análisis exploratorio de datos (EDA), visualización de series temporales y un análisis comparativo entre modelos estadísticos de series de tiempo (SARIMA) y de aprendizaje automático (Random Forest). Los modelos SARIMA evidenciaron limitaciones, especialmente en líneas con alta variabilidad como CamperosDicol y Tamayo, mostrando valores negativos en R² y errores de predicción elevados. En contraste, el modelo Random Forest, tras la optimización de hiperparámetros, logró un desempeño sobresaliente en todas las líneas de venta. En particular, alcanzó valores de R² superiores al 0.89 y reducciones significativas en MAE y RMSE, destacándose como la opción más precisa y robusta para la predicción de la demanda. En términos de exactitud, el mejor resultado se obtuvo en la Línea Rodamientos con Random Forest optimizado, alcanzando un R² de 0.9213 y un MAE de tan solo 50.38 unidades, lo cual representa un nivel de precisión altamente favorable para la planificación de inventario y toma de decisiones estratégicas.
  • Item
    Modelo predictivo para la gestión eficiente del consumo de materiales en mantenimientos de redes de distribución eléctrica
    (Institución Universitaria Pascual Bravo, 2025) Uribe Rios, Janny Michael; Becerra Botero, Miguel Alberto
    En el ámbito del mantenimiento de redes de distribución de energía eléctrica, el consumo de materiales es constante debido a las actividades de mantenimiento preventivo y correctivo. Actualmente, la planificación de compras se realiza mediante una metodología empírica: se toma como base el consumo del año anterior, se incrementa en un 15 %, y se consideran necesidades adicionales detectadas por el personal técnico. Este enfoque puede generar ineficiencias, sobrecostos y errores en la gestión del inventario. Frente a esta situación, el presente trabajo de grado propone el desarrollo de un modelo predictivo basado en regresión lineal, utilizando datos históricos de consumo de materiales correspondientes a los años 2021, 2022, 2023 y 2024. Este modelo está diseñado para proyectar el consumo del año inmediatamente siguiente al más reciente disponible, facilitando una estimación más precisa y técnica de las necesidades materiales. La implementación del modelo permitirá optimizar la planificación de compras, reducir el desperdicio de recursos, mejorar la gestión de inventarios y modernizar los procesos de toma de decisiones en la adquisición de insumos. De esta manera, se busca fortalecer la eficiencia operativa y asegurar la continuidad y calidad del servicio eléctrico.