El almacén de datos consta de datos de múltiples fuentes de datos heterogéneas y se utiliza para informes analíticos y toma de decisiones. El almacén de datos es el lugar central donde se almacenan los datos de diferentes fuentes de datos y aplicaciones.
El término almacén de datos fue acuñado por primera vez por Bill Inm en 1990. El almacén de datos siempre se mantiene separado de la base de datos en línea.
Los datos en el sistema DW se cargan desde sistemas operativos de transacciones como:
Puede pasar por el almacenamiento de datos en línea u otras transformaciones antes de cargarse en el sistema DW para el procesamiento de la información.
El almacén de datos se utiliza para informes y análisis de información y almacena tanto datos históricos como actuales. Los datos del sistema DW se utilizan para informes analíticos, que luego los analistas de negocios, gerentes de ventas o profesionales de tecnología de la información utilizan para tomar decisiones.
En la imagen de arriba, puede ver que los datos provienen de múltiples datos heterogéneos fuentes en el almacén de datos. Las fuentes de datos comunes para un almacén de datos incluyen:
Los usuarios de BI (Business Intelligence) acceden a los datos en el almacén de datos para informes analíticos, extracción de datos y análisis. Se utiliza para la toma de decisiones por parte de usuarios comerciales, gerente de ventas y analistas para determinar la estrategia futura.
Es un almacén de datos central donde los datos se almacenan de una o más fuentes de datos heterogéneas. El sistema DW almacena tanto datos actuales como históricos. Normalmente, el sistema DW almacena datos históricos de 5 a 10 años. El sistema DW siempre se mantiene separado del sistema operativo de transacciones.
Los datos del sistema DW se utilizan para varios tipos de informes analíticos, desde trimestrales hasta anuales.
Las diferencias entre el almacén de datos y la base de datos en línea son las siguientes:
Un Sistema operativo Destinado a cargas de trabajo y transacciones conocidas, como actualizar un registro de usuario, buscar un registro, etc. Sin embargo, las transacciones del almacén de datos son más complejas y representan una forma general de datos.
Un Sistema operativo contiene los datos actuales de la organización y el almacén de datos generalmente contiene datos históricos.
Un Base de datos de operaciones admite el procesamiento paralelo de múltiples transacciones. Se requieren mecanismos de recuperación y control de concurrencia para mantener la coherencia de la base de datos.
Un Base de datos de operaciones query le permite leer y modificar operaciones (insertar, eliminar y actualizar), mientras que una consulta OLAP solo requiere acceso de solo lectura a los datos almacenados (instrucción Select).
El almacenamiento de datos incluye limpieza de datos, integración de datos y consolidación de datos. El almacén de datos tiene una arquitectura de tres niveles:
Determina cómo ingresan los datos al almacén de datos. Incluye varias fuentes de datos y sistemas operativos de transacciones, archivos planos, aplicaciones, etc.
Consiste en un almacén de datos operativos y un área de preparación. El área de preparación se utiliza para limpiar datos, transformar datos y cargar datos de diferentes fuentes en el almacén de datos. Debido a que hay varias fuentes de datos disponibles para su recuperación en diferentes zonas horarias, se utiliza un área de preparación para almacenar los datos y luego aplicar transformaciones a los datos.
Esto se utiliza para ejecutar informes de BI por parte de los usuarios finales. Los datos del sistema DW están disponibles para los usuarios de BI y se utilizan para informes y análisis.
La siguiente figura muestra la arquitectura general de un sistema de almacenamiento de datos.
Las siguientes son las características clave de un almacén de datos:
Orientado al sujeto – En el sistema DW, los datos se clasifican y almacenan por entidad comercial y no por aplicaciones como planes de capital, acciones, préstamos, etc.
Integrado – Los datos de múltiples fuentes se integran en el almacén de datos.
No volátil – Los datos del almacén de datos no son volátiles. Esto significa que cuando se cargan datos en el sistema DW, no cambian.
Opción de tiempo – El sistema DW contiene datos históricos en comparación con el sistema transaccional, que contiene solo datos actuales. En el almacén de datos, puede ver datos de 3 meses, 6 meses, 1 año, 5 años, etc.
Primero, OLTP significa Procesamiento de transacciones en líneay OLAP significa Procesamiento analítico en línea
Hay una gran cantidad de transacciones breves en línea en el sistema OLTP, como INSERT, UPDATE y DELETE.
Mientras que en el sistema OLTP, el indicador efectivo es el tiempo de procesamiento de transacciones cortas, y es mucho menor. Supervisa la integridad de los datos en entornos de acceso múltiple. Para un sistema OLTP, la eficiencia se mide por el número de transacciones por segundo. El sistema de almacenamiento de datos OLTP contiene datos en vivo y detallados y se admite en esquemas en el modelo de entidad (3NF).
por ejemplo –
Un sistema diario de transacciones de tiendas minoristas donde los registros de los clientes se insertan, actualizan y eliminan diariamente. Esto permite un procesamiento más rápido de las solicitudes. Las bases de datos OLTP contienen datos detallados y actualizados. El esquema utilizado para almacenar la base de datos OLTP es el modelo de entidad.
Un sistema OLAP tiene menos transacciones en comparación con un sistema transaccional. Las consultas realizadas son complejas e implican agregación de datos.
Mantenemos tablas con datos agregados como anual (1 fila), trimestral (4 filas), mensual (12 filas) más o menos, si alguien necesita hacer una comparación anual, solo se procesará una fila. Sin embargo, en una tabla no agregada, comparará todas las filas. A esto se le llama agregación.
Hay varias funciones de agregación que se pueden usar en un sistema OLAP, como Sum, Avg, Max, Min, etc.
por ejemplo –
SELECT Avg(salary) FROM employee WHERE title="Programmer";
Estas son las principales diferencias entre los sistemas OLAP y OLTP.
Índices – El sistema OLTP tiene solo unos pocos índices, mientras que el sistema OLAP tiene muchos índices para optimizar el rendimiento.
Uniones – Se ha normalizado gran cantidad de conexiones y datos en el sistema OLTP. Sin embargo, el sistema OLAP tiene menos conexiones y no está normalizado.
Agregación – El sistema OLTP no agrega datos, mientras que la base de datos OLAP usa más agregados.
Normalización – El sistema OLTP contiene datos normalizados, pero los datos no están normalizados en el sistema OLAP.
El data mart se centra en un área funcional y es la forma más simple de data warehouse. Considere un almacén de datos que contenga datos de ventas, marketing, recursos humanos y finanzas. El data mart se enfoca en un área funcional como ventas o marketing.
En la imagen de arriba, puede ver la diferencia entre un almacén de datos y una despensa de datos.
La tabla de hechos representa las medidas mediante las cuales se realiza el análisis. También contiene claves externas para claves de dimensión.
por ejemplo – Cada venta es un hecho.
Identificación del cliente | ID de producto | ID de tiempo | Cant. Vendida |
---|---|---|---|
1110 | 25 | 2 | 125 |
1210 | 28 | cuatro | 252 |
La tabla de medidas representa las características de la medida. El parámetro Cliente puede tener nombre de cliente, número de teléfono, sexo, etc.
Identificación del cliente | Cust_Name | Teléfono | Sexo |
---|---|---|---|
1110 | Salida | 1113334444 | F |
1210 | Adán | 2225556666 | METRO |
🚫