Gestión de Proyectos de Datos
Durante muchos años me dediqué a la gestión de negocios, esta realidad sumada al hecho que mi formación de grado (ingeniería) tiene que ver con la gestión de los datos, me hizo ser bastante incisivo y cuestionador (sanamente, espero) de las metodologías demasiado estructuradas al punto de ser muy rígidas en el análisis de los datos.
Ser cliente de proveedores internos y externos de analistas y desarrolladores de datos (muchos de ellos muy buenos) te permite así mismo aprender de que la consultoría cuenta como algo indudablemente productivo.
Recordando esta experiencia y revisando la actualidad en la gestión de proyectos de datos me animo a repasar el enfoque tradicional y contrastarlo con enfoques resultantes de la normativa, estándares y mejores practicas en la actualidad.
Saber mirar un conjunto de datos es pues, tanto o mas que saber mirar una pintura, un cuadro o una foto. Y tiene tanto o mas impacto.

El sentido de repasar enfoques en la gestión de proyectos de datos
Este tema tiene sentido, desde que el lector esté interesado en la ciencia de datos, ingeniería de datos y/o ingeniería en inteligencia artificial. En efecto, cualquiera sea la rama por la que circule el lector, encontrará un punto de partida común. El análisis de datos. En este apartado inicial de "análisis de datos", es donde se fundamentan los resultados de cualquier proyecto que involucre datos. Y esto es lo que le da sentido a reflexionar sobre el análisis de datos en sus distintos enfoques. Es por esto que en gran parte de las certificaciones y carreras asociadas al trabajo con datos, el análisis de datos es algo así como un primer escalón.
Enfoque clásico en la gestión de proyectos de datos.
Los proyectos de análisis de datos siguen un proceso estructurado que permite transformar datos sin procesar en información útil para la toma de decisiones. Tradicionalmente, este proceso se compone de seis fases clave:
Definición del Problema – Entender el objetivo del análisis.
Recolección de Datos – Obtener los datos necesarios.
Limpieza de Datos – Preparar los datos para su análisis.
Análisis Exploratorio – Identificar patrones en los datos.
Modelado – Aplicar técnicas estadísticas o de machine learning.
Interpretación y Comunicación – Presentar los resultados de manera clara.
Sin embargo, para profundizar en cada etapa y garantizar que el proyecto de datos sea efectivo, es fundamental abordar una serie de tópicos complementarios que fortalecen este proceso. A continuación, exploramos cómo estas seis fases se relacionan con aspectos clave como la gestión metodológica, la selección de datos, la documentación, la validación y la visualización.
Este trabajo esta enlazado con una serie de escritos que están referenciados mediante links en los títulos que a continuación se detallan. Allí se detallan cada uno de estos enfoques. A continuación se los menciona brevemente al tiempo que se los relaciona con el enfoque clásico popularmente conocido.
Así mismo, el material propuesto en este trabajo se encuentra alojado en un repositorio de github.
🔗 Relación con: Definición del Problema, Recolección de Datos, Modelado
Existen diversas metodologías diseñadas para gestionar proyectos de datos de manera eficiente. Algunas de las más utilizadas incluyen:
CRISP-DM (Cross-Industry Standard Process for Data Mining) – Se basa en un ciclo iterativo con fases como comprensión del negocio, preparación de datos, modelado y evaluación.
SEMMA (Sample, Explore, Modify, Model, Assess) – Enfocada en minería de datos y estadística, facilita la identificación de patrones.
TDSP (Team Data Science Process) – Marco desarrollado por Microsoft para proyectos de ciencia de datos en entornos empresariales.
Agile Data Science – Adapta principios ágiles para desarrollar soluciones de datos de forma iterativa y colaborativa.
Estas metodologías proporcionan estructuras claras para manejar desde la definición del problema hasta la implementación de modelos analíticos.
🔗 Relación con: Recolección de Datos, Análisis Exploratorio
Un proyecto de datos solo será exitoso si parte de una selección adecuada de datos. Es clave:
Definir fuentes de datos internas y externas (bases de datos, APIs, sensores, redes sociales, etc.).
Evaluar la relevancia de los datos en función de los objetivos del proyecto.
Garantizar que los datos sean adecuados para su análisis mediante validaciones previas.
Una selección deficiente de datos puede llevar a análisis erróneos y decisiones incorrectas.
🔗 Relación con: Definición del Problema, Interpretación y Comunicación
Los datos generan valor cuando se utilizan correctamente en un proyecto. Su utilidad se refleja en:
Optimización de procesos – Automatización y mejora de eficiencia.
Toma de decisiones informadas – Basadas en datos en lugar de intuición.
Predicción de tendencias – Análisis de patrones para anticipar comportamientos futuros.
Comprender la utilidad del dato permite alinear el análisis con los objetivos del negocio.
🔗 Relación con: Recolección de Datos, Limpieza de Datos
El metadato (información sobre los datos) es crucial para entender su origen, estructura y significado. Algunos elementos clave de los metadatos incluyen:
Fuente de datos – De dónde provienen los datos y su confiabilidad.
Formato y tipo de datos – Texto, numérico, categórico, etc.
Historial de cambios – Quién ha modificado los datos y cuándo.
Una adecuada gestión de metadatos facilita la trazabilidad y la calidad de los datos en un proyecto.
🔗 Relación con: Recolección de Datos, Limpieza de Datos, Modelado
Los datos pueden presentarse en diversas estructuras, y su correcta documentación es esencial para su manejo eficiente. Algunas estructuras comunes incluyen:
Bases de datos relacionales – SQL, PostgreSQL, MySQL.
Bases de datos NoSQL – MongoDB, Cassandra, Redis.
Datos semi-estructurados – JSON, XML, CSV.
Elegir la estructura adecuada según el proyecto optimiza el procesamiento y almacenamiento de datos.
🔗 Relación con: Limpieza de Datos, Modelado
La normalización permite estructurar datos en bases de datos para reducir la redundancia y mejorar su integridad. Este proceso implica:
Dividir tablas grandes en tablas más pequeñas relacionadas por claves primarias y foráneas.
Eliminar datos repetidos para evitar inconsistencias.
Mejorar la eficiencia en consultas mediante estructuras organizadas.
Sin normalización, el análisis de datos puede verse afectado por duplicaciones y errores.
🔗 Relación con: Limpieza de Datos, Análisis Exploratorio
Antes de analizar los datos, es fundamental garantizar su calidad mediante:
Detección de valores nulos o perdidos – Pueden afectar modelos predictivos.
Eliminación de duplicados – Evita sesgos en el análisis.
Corrección de errores de formato – Unificación de fechas, números y categorías.
Identificación de valores atípicos (outliers) – Datos que se alejan de lo esperado.
Estas prácticas garantizan que los datos sean confiables y precisos.
🔗 Relación con: Interpretación y Comunicación
El Data Cleaning es clave para garantizar que los análisis sean confiables. Implementarlo correctamente te ahorrará tiempo y mejorará la precisión de cualquier proyecto de datos. De lo contrario las idas y vueltas dentro de un proyecto pueden llevar a que este fracase.
9. Data Cleasing
🔗 Relación con: Interpretación y Comunicación
El Data Cleansing es la etapa de implementación de estandares y depuración de los datos corregidos en el data cleaning. Implementarlo correctamente evita que los datos se degraden a futuro.
🔗 Relación con: Interpretación y Comunicación
La visualización de datos es clave para comunicar resultados de manera efectiva. Se deben considerar:
Mejores prácticas – Uso de gráficos adecuados según el tipo de datos (barras, líneas, dispersión, mapas de calor, etc.).
Herramientas populares:
Tableau – Intuitivo y potente para dashboards interactivos.
Power BI – Integración con herramientas de Microsoft y capacidad de análisis en tiempo real.
Matplotlib y Seaborn (Python) – Alta personalización en gráficos estáticos.
Una buena visualización permite transformar números en información comprensible para la toma de decisiones.
Conclusión
Un proyecto de datos exitoso no solo se basa en la aplicación de técnicas analíticas, sino en un proceso integral que abarca desde la definición del problema hasta la comunicación de los resultados. Aplicando metodologías estructuradas, seleccionando adecuadamente los datos, asegurando su calidad y presentando los hallazgos de forma clara, se maximiza el valor que los datos pueden aportar a cualquier negocio o iniciativa.
Commentaires