Almacén de datos: descripción general

El almacén de datos consta de datos de múltiples fuentes de datos heterogéneas y se utiliza para informes analíticos y toma de decisiones. El almacén de datos es el lugar central donde se almacenan los datos de diferentes fuentes de datos y aplicaciones.

El término almacén de datos fue acuñado por primera vez por Bill Inm en 1990. El almacén de datos siempre se mantiene separado de la base de datos en línea.

Los datos en el sistema DW se cargan desde sistemas operativos de transacciones como:

  • Ventas
  • Márketing
  • HORA
  • SCM y otros.

Puede pasar por el almacenamiento de datos en línea u otras transformaciones antes de cargarse en el sistema DW para el procesamiento de la información.

El almacén de datos se utiliza para informes y análisis de información y almacena tanto datos históricos como actuales. Los datos del sistema DW se utilizan para informes analíticos, que luego los analistas de negocios, gerentes de ventas o profesionales de tecnología de la información utilizan para tomar decisiones.

Almacén de datos

En la imagen de arriba, puede ver que los datos provienen de múltiples datos heterogéneos fuentes en el almacén de datos. Las fuentes de datos comunes para un almacén de datos incluyen:

  • Bases de datos operativas
  • Aplicaciones de SAP y de terceros
  • Archivos planos (archivos xls, csv, txt)

Los usuarios de BI (Business Intelligence) acceden a los datos en el almacén de datos para informes analíticos, extracción de datos y análisis. Se utiliza para la toma de decisiones por parte de usuarios comerciales, gerente de ventas y analistas para determinar la estrategia futura.

Características del almacén de datos

Es un almacén de datos central donde los datos se almacenan de una o más fuentes de datos heterogéneas. El sistema DW almacena tanto datos actuales como históricos. Normalmente, el sistema DW almacena datos históricos de 5 a 10 años. El sistema DW siempre se mantiene separado del sistema operativo de transacciones.

Los datos del sistema DW se utilizan para varios tipos de informes analíticos, desde trimestrales hasta anuales.

Almacén de datos frente a base de datos en línea

Las diferencias entre el almacén de datos y la base de datos en línea son las siguientes:

  • Un Sistema operativo Destinado a cargas de trabajo y transacciones conocidas, como actualizar un registro de usuario, buscar un registro, etc. Sin embargo, las transacciones del almacén de datos son más complejas y representan una forma general de datos.

  • Un Sistema operativo contiene los datos actuales de la organización y el almacén de datos generalmente contiene datos históricos.

  • Un Base de datos de operaciones admite el procesamiento paralelo de múltiples transacciones. Se requieren mecanismos de recuperación y control de concurrencia para mantener la coherencia de la base de datos.

  • Un Base de datos de operaciones query le permite leer y modificar operaciones (insertar, eliminar y actualizar), mientras que una consulta OLAP solo requiere acceso de solo lectura a los datos almacenados (instrucción Select).

Arquitectura de almacenamiento de datos

El almacenamiento de datos incluye limpieza de datos, integración de datos y consolidación de datos. El almacén de datos tiene una arquitectura de tres niveles:

Capa de fuente de datos

Determina cómo ingresan los datos al almacén de datos. Incluye varias fuentes de datos y sistemas operativos de transacciones, archivos planos, aplicaciones, etc.

Nivel de integración

Consiste en un almacén de datos operativos y un área de preparación. El área de preparación se utiliza para limpiar datos, transformar datos y cargar datos de diferentes fuentes en el almacén de datos. Debido a que hay varias fuentes de datos disponibles para su recuperación en diferentes zonas horarias, se utiliza un área de preparación para almacenar los datos y luego aplicar transformaciones a los datos.

Capa de presentación

Esto se utiliza para ejecutar informes de BI por parte de los usuarios finales. Los datos del sistema DW están disponibles para los usuarios de BI y se utilizan para informes y análisis.

La siguiente figura muestra la arquitectura general de un sistema de almacenamiento de datos.

Arquitectura de almacenamiento de datos

Características del almacén de datos

Las siguientes son las características clave de un almacén de datos:

  • Orientado al sujeto – En el sistema DW, los datos se clasifican y almacenan por entidad comercial y no por aplicaciones como planes de capital, acciones, préstamos, etc.

  • Integrado – Los datos de múltiples fuentes se integran en el almacén de datos.

  • No volátil – Los datos del almacén de datos no son volátiles. Esto significa que cuando se cargan datos en el sistema DW, no cambian.

  • Opción de tiempo – El sistema DW contiene datos históricos en comparación con el sistema transaccional, que contiene solo datos actuales. En el almacén de datos, puede ver datos de 3 meses, 6 meses, 1 año, 5 años, etc.

OLTP frente a OLAP

Primero, OLTP significa Procesamiento de transacciones en líneay OLAP significa Procesamiento analítico en línea

Hay una gran cantidad de transacciones breves en línea en el sistema OLTP, como INSERT, UPDATE y DELETE.

Mientras que en el sistema OLTP, el indicador efectivo es el tiempo de procesamiento de transacciones cortas, y es mucho menor. Supervisa la integridad de los datos en entornos de acceso múltiple. Para un sistema OLTP, la eficiencia se mide por el número de transacciones por segundo. El sistema de almacenamiento de datos OLTP contiene datos en vivo y detallados y se admite en esquemas en el modelo de entidad (3NF).

por ejemplo

Un sistema diario de transacciones de tiendas minoristas donde los registros de los clientes se insertan, actualizan y eliminan diariamente. Esto permite un procesamiento más rápido de las solicitudes. Las bases de datos OLTP contienen datos detallados y actualizados. El esquema utilizado para almacenar la base de datos OLTP es el modelo de entidad.

Un sistema OLAP tiene menos transacciones en comparación con un sistema transaccional. Las consultas realizadas son complejas e implican agregación de datos.

¿Qué es la agregación?

Mantenemos tablas con datos agregados como anual (1 fila), trimestral (4 filas), mensual (12 filas) más o menos, si alguien necesita hacer una comparación anual, solo se procesará una fila. Sin embargo, en una tabla no agregada, comparará todas las filas. A esto se le llama agregación.

Hay varias funciones de agregación que se pueden usar en un sistema OLAP, como Sum, Avg, Max, Min, etc.

por ejemplo

SELECT Avg(salary)
FROM employee
WHERE title="Programmer";

Diferencias clave

Estas son las principales diferencias entre los sistemas OLAP y OLTP.

  • Índices – El sistema OLTP tiene solo unos pocos índices, mientras que el sistema OLAP tiene muchos índices para optimizar el rendimiento.

  • Uniones – Se ha normalizado gran cantidad de conexiones y datos en el sistema OLTP. Sin embargo, el sistema OLAP tiene menos conexiones y no está normalizado.

  • Agregación – El sistema OLTP no agrega datos, mientras que la base de datos OLAP usa más agregados.

  • Normalización – El sistema OLTP contiene datos normalizados, pero los datos no están normalizados en el sistema OLAP.

OLTP

Data mart vs data warehouse

El data mart se centra en un área funcional y es la forma más simple de data warehouse. Considere un almacén de datos que contenga datos de ventas, marketing, recursos humanos y finanzas. El data mart se enfoca en un área funcional como ventas o marketing.

Data mart vs data warehouse

En la imagen de arriba, puede ver la diferencia entre un almacén de datos y una despensa de datos.

Tabla de hechos y tamaños

La tabla de hechos representa las medidas mediante las cuales se realiza el análisis. También contiene claves externas para claves de dimensión.

por ejemplo – Cada venta es un hecho.

Identificación del cliente ID de producto ID de tiempo Cant. Vendida
1110 25 2 125
1210 28 cuatro 252

La tabla de medidas representa las características de la medida. El parámetro Cliente puede tener nombre de cliente, número de teléfono, sexo, etc.

Identificación del cliente Cust_Name Teléfono Sexo
1110 Salida 1113334444 F
1210 Adán 2225556666 METRO

🚫