¿Cómo se hace un data warehouse?
Una composición básica para un almacén de datos está formada primeramente por las fuentes de datos, que tienen la posibilidad de ser de cualquier clase, así sean estructuradas, semiestructuradas o no estructuradas, de las que conseguimos los “datos salvajes” o los «datos sucios».
Estos datos se guardan en un Data Lake, y hasta este punto «tenemos la posibilidad de» usar estos datos pero va a ser bien difícil sacar buenas conclusiones puesto que está llena de información inútil y desechable.
Especificaciones de un Datawarehouse
La primordial virtud de estos sistemas se apoya en la composición de la información, que piensa el almacenaje de los datos de manera homogénea y confiable, en una composición fundamentada en la solicitud y régimen jerárquico de exactamente los mismos, y en un ambiente distinguido de los S.O.. Según Bill Inmon, quien acuñó el término, el Datawarehouse se identifica por ser:
- Que viene dentro: los datos guardados tienen que complementarse en una composición congruente, lo que acarrea la supresión de las inconsistencias que ya están entre los S.O.. .
- Temática: para hacer más simple el ingreso y la entendimiento de los datos, comunmente se organizan por materias.
- Histórico: Deja guardar datos en instantes específicos, efectuar análisis de tendencias en esos instantes o periodos de tiempo y lograr realizar comparaciones en medio de estos valores tomados.
- No volátil: Esto supone que la información guardada en el Datawarehouse debe leerse pero no alterarse. Por consiguiente, la información es persistente.
¿De qué manera se configura un Data Warehouse?
La arquitectura de un almacén de datos está estructurada de tal manera que contamos muchas fuentes; Con estas fuentes, a través de procesos ETL (Extract, Transform, Load), esos orígenes que tenían y no eran propiedad se transferirán y cargarán a una banco de información dueña en el Data Warehouse. El área donde se cargan los datos tiene por nombre etapa y, comunmente, los datos en salvaje están ahí. No se hace nada con los datos, sencillamente se copian y enganchan de los S.O..
Una vez todo está en etapa, empieza el trabajo del analista de datos en ODS (Operational Data Store). En ODS se modela completamente todos y cada uno de los datos que se agregaron en la etapa: se verifica que no hay islas de información, se ejecuta la una parte de calidad de los datos, etcétera.
los datos que se guardan en el almacén de datos tienen que complementarse en una composición congruente, por consiguiente, debe eliminarse cualquier incoherencia. La información que se composición en niveles diferentes de aspecto a fin de que logre amoldarse a las distintas pretensiones que tienen los clientes.
(BOTTOM UP)
La metodología multidimensional o metodología Ralph Kimball sostiene un diseño ascendiente. Por consiguiente, los Data Marts son los primeros que se crean y después se tienen dentro en el Data Warehouse, donde se busca que el almacenaje de los datos de los clientes se ejecute lo mucho más veloz viable.
Según Kimball, un almacén de datos es la copia de los datos transaccionales estructurados particularmente para consultas y también reportes metódicos, con la intención de respaldar la toma de resoluciones. Con esta metodología, primero la creación de Data Marts da habilidades de reportes metódicos para procesos funcionales y empresariales concretos.