数据仓库四个层次结构_数据仓库结构设计与实施-营销方案网

2025-02-0613:15:53营销方案1

数据仓库概览：数据仓库系统全面捕捉并处理源自各种业务系统的数据。经过ETL过程对数据进行规范化、验证及清洗后，这些数据被有条不紊地装载进入数据集市，从而支持高级别的数据查询与分析。整个系统构造明晰，包含四大核心层次。

ETL（extraction, transformation, loading）技术是实现数据仓库构建的基石。此过程将不同源、异构数据抽取至中间层，继而进行清洗、转换及集成作业，最终将净化后的数据加载至数据仓库或数据集市中。ETL的规划与执行占据整个数据仓库搭建工作量的约60%至80%。

1. 数据抽取（extraction）包含初始化数据装载与数据刷新两个步骤。初始化过程中，重点是建立维表与事实表，并将相应数据填充至这些表中。而数据刷新则侧重于监测源数据的变动，并相应地对数据仓库中的数据进行追加与更新。

2. 数据清洗（Data Cleaning）专注于解决源数据库中存在的二义性、重复、不完整以及违反业务或逻辑规则的数据问题。此步骤旨在清除不符合业务需求或无用的数据，例如通过编程方式清洗字段中长度不符合要求的数据。

3. 数据加载（Data Loading）环节将处理完毕的数据导入到相应的存储空间内，如MySQL等，以便为数据集市提供支持，并最终实现数据的可视化展示。

大型企业为确保数据安全与操作便利，通常会构建自己的数据平台与任务调度平台。这些平台在底层集成了如Hadoop集群、Spark集群、Sqoop、Hive、ZooKeeper和HBase等大数据工具，仅提供用户友好的web界面，并依据员工角色分配不同权限。以数据仓库为例，通过逻辑分层来不同层次的数据操作任务，以便于管理和维护（大型企业每日可能有数千个至数万个待执行任务）。

依照标准，数据仓库通常分为四层。但需注意，这种划分与命名并非唯一标准。大多数企业采用四层结构，但不同公司的具体命名可能有所不同。例如，某些企业可能将临时层称为SSA（Source System Adaptaiton Layer），而京东则称之为BDM。

SSA层直接复制源系统（如从MySQL中读取所有数据并导入到与源结构相同的Hive表中）的数据，力求保持业务数据的原始样貌。与源系统不同的是，SSA中的数据会加入时间戳信息，从而记录多个版本的历史数据。

SOR（Standard Operational Repository）是根据3NF范式规则开发的表结构模型。它是数据仓库中最细节数据的存储层次，并根据不同的主题域对数据进行分类存储。例如，高校数据统计服务平台将全校数据按人事、学生、教学和科研四大主题在SOR层中存储。

A（Semi-Martix Adaptaiton Layer）作为SOR和DM（Data Mart Layer）之间的过渡层。由于SOR数据高度规范化，进行查询需进行大量关联操作；同时DM中数据的粒度较高，需要大量汇总工作。A根据需求适度进行反规范化及汇总操作，以提高数据仓库的查询性能。

DM层直接服务最终用户。理解上可以视作是提供用户直接访问的最终汇总数据的所在地；其内含多种粒度的数据以满足不同用户的访问需求。

总体而言，无论是大型企业还是小型，数据仓库的构建均需经过精心规划与实施，以确保数据的准确性、完整性和可访问性。

...