Migración y análisis de datos no estructurados

Estructurar y aprovechar los datos de una empresa con más de 20 años para fortalecer el área comercial y generar reconocimiento en el mercado.

PARTE 1: Análisis del Problema/ Caso

PARTE 2: Herramientas para utilizar en el manejo de datos no estructurados

La selección de herramientas depende del tipo y volumen de datos, así como de los objetivos comerciales. Para este caso de estudio, se realizaran recomendaciones por cada paso del proceso de estructuración de los datos. A continuación:

Herramientas de extracción y procesamiento de datos no estructurados

Apache Tika:

Apache Tika: Para extraer texto de documentos como PDF, Word, etc.

Tesseract OCR

Para convertir imágenes o escaneos a texto digital.

Python + bibliotecas (NLTK, SpaCy, Pandas):
Para procesamiento de lenguaje natural y análisis de texto.

Herramientas de Almacenamiento y organización

SharePoint o Google Drive con metadata personalizada: Para clasificación de archivos internos con control de versiones.

MongoDB: Base de datos NoSQL adecuada para documentos semi-estructurados.

Herramientas de Visualización y análisis de datos

Power BI / Tableau Para crear dashboards comerciales a partir de los datos organizados.

Excel avanzado Herramienta accesible para análisis preliminar si el equipo no es técnico.

Looker Studio Herramienta gratuita de visualización de datos de Google que permite conectar, transformar y presentar información en reportes interactivos

Herramientas de Machine Learning y análisis predictivo

Google Cloud AI / Azure ML / AWS SageMaker Plataformas que permiten crear modelos predictivos una vez que los datos están organizados.

Python + Scikit-learnPara desarrollar modelos simples de segmentación o predicción comercial.

Parte 3: Proceso de estructuración de los datos

Recolección
Limpieza
Clasificación
Análisis
Visualización
Generación de informes

1. Recolección

¿Qué tipo de datos existen?:
Correos, informes escaneados, notas físicas digitalizadas, bases de datos antiguas, registros en Excel, chats, archivos de audio, video, etc.

¿De dónde provienen esos datos?:
Finanzas, ventas, servicio al cliente, operaciones, marketing, etc.

Herramientas que podemos utilizar en este paso:
Google Cloud Dataflow / Azure Data Factory: automatizan recolección masiva desde entornos cloud.

Según Kitchin (2014), los datos no estructurados representan más del 80% de la información corporativa, lo que hace fundamental su recolección sistemática para poder analizarlos con técnicas modernas de analítica.

2. Limpieza

¿Qué problemas suelen tener los datos antiguos?

Duplicados, errores tipográficos, datos faltantes, formatos inconsistentes, metadatos ausentes.

Ejemplo:
La base de todos los clientes tiene 5 versiones de un mismo nombre: "Laura P. Ríos", "Laura Rios", "L.P. Ríos". Se agrupan como una sola persona y se centraliza la información del cliente.

Herramientas que podemos usar en este punto:
Python (pandas, numpy): librerías de limpieza.

Según el libro Data Science for Business (Provost & Fawcett, 2013), el 80% del trabajo en analítica de datos se dedica a limpieza, porque decisiones basadas en datos sucios generan errores costosos.

3. Clasificación

¿Cómo se organiza lo recolectado?
Clasificación por tema, formato, área, año, relevancia comercial. Estructurar los datos para facilitar su búsqueda y análisis.

Ejemplo:
Los reclamos de clientes se agrupan por tipo de producto y tono del mensaje (positivo/negativo) usando IA.

Herramientas que podemos utilizar en este paso:

Data Catalog de Google Cloud / Azure Purview o IA con NLP (Natural Language Processing): para clasificar texto automáticamente.

Según Davenport (2013), clasificar correctamente los datos es clave para la gobernanza de la información y permite priorizar lo relevante para los objetivos estratégicos.

4. Análisis de datos

¿Qué patrones o insights se pueden encontrar?Entender el comportamiento histórico de ventas, clientes y proveedores para tomar decisiones informadas.

Ejemplo:
La empresa quiere saber qué productos se vendieron más en los últimos 10 años por temporada.

Herramientas que podemos utilizar:
Power BI / Tableau / Looker: para análisis visual e interactivo. Python (scikit-learn): para análisis predictivo. RapidMiner / Orange: minería de datos visual.

Según Competing on Analytics (Davenport & Harris, 2007), el análisis profundo de datos históricos permite ventajas competitivas sostenibles.

Paso a paso del análisis:

5. Visualización de datos

¿Cómo se presenta la información para que sea comprensible?
Con gráficos, mapas, líneas de tiempo, nubes de palabras.

Ejemplo:
Un tablero muestra un gráfico de barras comparando los productos más vendidos por temporada durante los últimos 10 años.

Herramientas que podemos utilizar:
Tableau / Power BI / Looker Studio
Permiten gráficos y filtros interactivos

Edward Tufte (1983), pionero en visualización, plantea que los gráficos deben maximizar la claridad sin distorsionar los datos.

6. Generación de Informes

¿Quién necesita los resultados y en qué formato?Directivos (resumen ejecutivo), áreas comerciales (tendencias de clientes), TI (recomendaciones técnicas).

Ejemplo:
Informe Comercial – Según el análisis descriptivo realizado, los cinco productos con mayor volumen de ventas acumuladas en los últimos 10 años son: xx

Herramientas que podemos utilizar:
Automatización con Python para generar reportes periódicos. Data Studio: informes colaborativos

Según el modelo de Insight-to-Action de IBM (2016), un buen informe debe traducir datos en recomendaciones prácticas.

Resultados esperados & Conclusiones

RESULTADOS ESPERADOS:

Como resultado esperamos a nivel organizacional tener mayor visibilidad de la información que se cuenta durante estos 20 años haciendo la integración de los datos de las distintas áreas con las que se cuenta como (ventas, clientes, logística, atención al cliente, etc.) en un sistema integrado.
Esto nos llevara a la toma de decisiones estratégicas ya que contamos con información confiable, accesible y actualizada disponible para las reuniones de toma de decisiones.

Del mismo modo a nivel operativo tendremos mayor efectividad obteniendo la información más relevante, clasificando y digitalizando documentos antiguos y con esto podremos reducir los tiempos en búsqueda y recuperación de la información solicitada.

Como última parte tendremos una optimización en el área comercial ya que podríamos hacer el perfilamiento de los usuarios que se han recolectado de la información histórica que cuenta la empresa, podremos fortalecer los productos que venden la empresa sabiendo con los históricos cual es el producto más vendido.

CONCLUSIONES:

La información con la que cuenta la compañía es la parte más importante que tiene en este momento ya que con ello puede empezar a realizar una toma de decisiones más real y con esto poder darle un crecimiento exponencial a la misma.

Las compañías deben estar siempre en constante cambio y aprovechar las herramientas que salen día a día, esto con el fin de en el momento de la toma de decisiones sean más precisas y no se tenga tanto rango de error.

Enfocándonos en el área principal como los es el área comercial, ya teniendo la información más estructurada va a generar mejores resultados, ya que podrá identificar patrones de compras, poder anticipar la necesidad del cliente y aumentar así sus ganancias, con esto lograremos que los clientes tengan mayor fidelidad.

Grupo 9:

Jaime Alejandro Rojas Nivia

⭐⭐⭐⭐⭐

Andrés Felipe Rojas

⭐⭐⭐⭐⭐

Laura Gineth Ballén Garnica

⭐⭐⭐⭐⭐

Bibliografía:

Material utilizado

IBM. (n.d.). What is unstructured data? IBM. https://www.ibm.com/topics/unstructured-data
Gartner. (n.d.). Managing unstructured data. Gartner. https://www.gartner.com/en/information-technology/insights/unstructured-data
MongoDB, Inc. (n.d.). MongoDB manual.
https://www.mongodb.com/docs/manual/Microsoft. (n.d.). Power BI documentation.

https://learn.microsoft.com/en-us/power-bi/
Elastic NV. (n.d.). Elasticsearch reference guide. https://www.elastic.co/guide/en/elasticsearch/reference/index.html
Brandwatch. (s.f.). ¿Qué son los datos estructurados y no estructurados? Recuperado el 11 de abril de 2025 de https://www.brandwatch.com/es/blog/datos-estructurados/
NetApp. (s.f.). ¿Qué son los datos no estructurados? Recuperado el 11 de abril de 2025 de https://www.netapp.com/es/data-storage/unstructured-data/what-is-unstructured-data/
IMF Smart Education. (2022). Tipos de datos: datos estructurados, semiestructurados y no estructurados. Recuperado de https://blogs.imf-formacion.com/blog/tecnologia/tipos-de-datos-datos-estructurados-semiestructurados-y-no-estructurados/
Dataslayer. (2024). Data visualization tools comparison: Looker Studio vs Power BI vs Tableau. Recuperado de https://dataslayer.ai/pt/blog/data-visualization-tools-comparison/
Udla, J. (2024). ¿Tableau, Power BI, Looker Studio, Microstrategy? ¿No sabes cuál elegir? [Video]. YouTube. https://www.youtube.com/watch?v=efHwiWFZafY
Simplilearn. (2024). Business Intelligence Tutorial for 2024 with Power BI, Tableau, Excel, and Python [Video]. YouTube. https://www.youtube.com/watch?v=2kOLX4IKZyU

Migración y análisis de datos no estructurados

PARTE 1: Análisis del Problema/ Caso

PARTE 2: Herramientas para utilizar en el manejo de datos no estructurados

La selección de herramientas depende del tipo y volumen de datos, así como de los objetivos comerciales. Para este caso de estudio, se realizaran recomendaciones por cada paso del proceso de estructuración de los datos. A continuación:

Herramientas de extracción y procesamiento de datos no estructurados

Apache Tika:

Tesseract OCR

Python + bibliotecas (NLTK, SpaCy, Pandas): Para procesamiento de lenguaje natural y análisis de texto.

Herramientas de Almacenamiento y organización

SharePoint o Google Drive con metadata personalizada: Para clasificación de archivos internos con control de versiones.

MongoDB: Base de datos NoSQL adecuada para documentos semi-estructurados.

Herramientas de Visualización y análisis de datos

Power BI / Tableau Para crear dashboards comerciales a partir de los datos organizados.

Excel avanzado Herramienta accesible para análisis preliminar si el equipo no es técnico.

Looker Studio Herramienta gratuita de visualización de datos de Google que permite conectar, transformar y presentar información en reportes interactivos

Herramientas de Machine Learning y análisis predictivo

Google Cloud AI / Azure ML / AWS SageMaker Plataformas que permiten crear modelos predictivos una vez que los datos están organizados.

Python + Scikit-learnPara desarrollar modelos simples de segmentación o predicción comercial.

Parte 3: Proceso de estructuración de los datos

1. Recolección

2. Limpieza

3. Clasificación

4. Análisis de datos

Paso a paso del análisis:

5. Visualización de datos

6. Generación de Informes

Resultados esperados & Conclusiones

Grupo 9:

Jaime Alejandro Rojas Nivia

Andrés Felipe Rojas

Laura Gineth Ballén Garnica

Bibliografía:

Material utilizado

Configuración avanzada

Python + bibliotecas (NLTK, SpaCy, Pandas):
Para procesamiento de lenguaje natural y análisis de texto.