Blog técnico

Data Warehouse (DW): El almacén de datos usable y con objetivos de negocio

¿Por qué a mi empresa le interesa implementar un almacén de datos?

¿Por qué a mi empresa le interesa implementar un almacén de datos?

The Data Warehousing Information Center responde:

Para llevar a cabo tareas asociadas a consultas e informes en los servidores no utilizados por los sistemas transaccionales. La forma menos costosa y ágil para obtener rápidas respuestas es implementar una arquitectura de almacenamiento de datos que utiliza servidores separados.

Para utilizar los modelos de datos  y acelerar las consultas de información. Hay formas de modelado de datos que normalmente aceleran las consultas e informes (por ejemplo, un esquema de estrella), y puede no ser apropiado para el procesamiento de transacciones debido a que la técnica de modelado se ralentizará y complicará el procesamiento de transacciones.

Para realizar consultas e informes sin conocimientos de bases de datos.

Para limpiar los datos de los sistemas de procesamiento transaccionales.

Para facilitar la consulta regular y el reporte de datos de múltiples sistemas transaccionales.

Definición de DW – (Almacén de datos) y lo que debe ser 

Un almacén de datos (data warehouse) es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organización, más allá de la información transaccional y operacional, almacenado en una base de datos diseñada para favorecer el análisis y la divulgación eficiente de datos (especialmente OLAP, procesamiento analítico en línea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de información que se subdividen a veces en unidades lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

En un almacén de datos lo que se quiere es contener datos que son necesarios o útiles para una organización, es decir, que se utiliza como un repositorio de datos para posteriormente transformarlos en información útil para el usuario. Un almacén de datos debe entregar la información correcta a la gente indicada en el momento óptimo y en el formato adecuado. El almacén de datos da respuesta a las necesidades de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (DSS), Sistemas de información ejecutiva (EIS) o herramientas para hacer consultas o informes. Los usuarios finales pueden hacer fácilmente consultas sobre sus almacenes de datos sin tocar o afectar la operación del sistema. En el funcionamiento de un almacén de datos son muy importantes las siguientes ideas:

• Integración de los datos provenientes de bases de datos distribuidas por las diferentes unidades de la organización y que con frecuencia tendrán diferentes estructuras (fuentes heterogéneas). Se debe facilitar una descripción global y un análisis comprensivo de toda la organización en el almacén de datos.

• Separación de los datos usados en operaciones diarias frente a los datos usados en el almacén de datos para los propósitos de divulgación, de ayuda en la toma de decisiones, para el análisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podrían entorpecerse entre sí.

Rutinariamente, se importan datos al almacén de datos de los distintos sistemas de planeamiento de recursos de la entidad (ERP) y de otros sistemas de software relacionados con el negocio para la transformación posterior. Es práctica común normalizar los datos antes de combinarlos en el almacén de datos mediante herramientas de extracción, transformación y carga (ETL). Estas herramientas leen los datos primarios (a menudo bases de datos OLTP de un negocio), realizan el proceso de transformación al almacén de datos (filtración, adaptación, cambios de formato, etc.) y escriben en el almacén. En este sentido, el libro “The Data Warehouse Toolkit” (Ralph Kimball) es una referencia esencial ya que determina lo que debe ser en cualquier compañía:

  • Debe hacer la información de la organización fácilmente accesible y sencilla. 
  • Debe presentar la información de la organización consistentemente.
  • Debe ser adaptable y resistente a cambios.
  • Debe ser un bastión seguro que proteja nuestra información. 
  • Debe servir como base para una toma de decisiones mejorada.
  • Los usuarios deben adoptarlo de forma voluntaria en su dinámica profesional.

Diseño del Almacén de Datos

Metadatos

Uno de los componentes más importantes de la arquitectura de un almacén de datos son los metadatos. Se define comúnmente como «datos acerca de los datos», en el sentido de que se trata de datos que describen cuál es la estructura de los datos que se van a almacenar y cómo se relacionan. El metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los datos son de interés para el usuario final, el metadato es de interés para los programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacén de datos es muy diferente al rol que cumple en los ambientes operacionales. En el ámbito de los data warehouse el metadato juega un papel fundamental: su función consiste en recoger todas las definiciones de la organización, y el concepto de los datos en el almacén de datos debe contener toda la información concerniente a:

• Tablas

• Columnas de tablas

• Relaciones entre tablas

• Jerarquías y Dimensiones de datos

• Entidades y Relaciones

Funciones ETL (extracción, transformación y carga)

Los procesos de extracción, transformación y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un almacén de datos (o en cualquier base de datos). Implican las siguientes operaciones:

• Extracción. Acción de obtener la información deseada a partir de los datos almacenados en fuentes externas.

• Transformación. Cualquier operación realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de éste a otra base de datos.

• Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el almacén de datos objetivo normal.

Middleware

Middleware es un término genérico que se utiliza para referirse a todo tipo de software de conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas. Estos servicios funcionan como una capa de abstracción de software distribuida, que se sitúa entre las capas de aplicaciones y las capas inferiores (sistema operativo y red). El middleware puede verse como una capa API, que sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones en que se ejecutarán. De esta manera, se ofrece una mejor relación costo/rendimiento que pasa por el desarrollo de aplicaciones más complejas en menos tiempo. La función del Middleware en el contexto de los data warehouse es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacén de datos.

COMPARTE ESTE POST

Share on facebook
Share on google
Share on twitter
Share on linkedin
Share on pinterest
Share on print
Share on email