数据仓库四个层次结构 数据仓库结构设计与实施

2025-02-0613:15:53营销方案0

数据仓库概览:数据仓库系统全面捕捉并处理源自各种业务系统的数据。经过ETL过程对数据进行规范化、验证及清洗后,这些数据被有条不紊地装载进入数据集市,从而支持高级别的数据查询与分析。整个系统构造明晰,包含四大核心层次。

ETL(extraction, transformation, loading)技术是实现数据仓库构建的基石。此过程将不同源、异构数据抽取至中间层,继而进行清洗、转换及集成作业,最终将净化后的数据加载至数据仓库或数据集市中。ETL的规划与执行占据整个数据仓库搭建工作量的约60%至80%。

1. 数据抽取(extraction)包含初始化数据装载与数据刷新两个步骤。初始化过程中,重点是建立维表与事实表,并将相应数据填充至这些表中。而数据刷新则侧重于监测源数据的变动,并相应地对数据仓库中的数据进行追加与更新。

2. 数据清洗(Data Cleaning)专注于解决源数据库中存在的二义性、重复、不完整以及违反业务或逻辑规则的数据问题。此步骤旨在清除不符合业务需求或无用的数据,例如通过编程方式清洗字段中长度不符合要求的数据。

3. 数据加载(Data Loading)环节将处理完毕的数据导入到相应的存储空间内,如MySQL等,以便为数据集市提供支持,并最终实现数据的可视化展示。

大型企业为确保数据安全与操作便利,通常会构建自己的数据平台与任务调度平台。这些平台在底层集成了如Hadoop集群、Spark集群、Sqoop、Hive、ZooKeeper和HBase等大数据工具,仅提供用户友好的web界面,并依据员工角色分配不同权限。以数据仓库为例,通过逻辑分层来不同层次的数据操作任务,以便于管理和维护(大型企业每日可能有数千个至数万个待执行任务)。

依照标准,数据仓库通常分为四层。但需注意,这种划分与命名并非唯一标准。大多数企业采用四层结构,但不同公司的具体命名可能有所不同。例如,某些企业可能将临时层称为SSA(Source System Adaptaiton Layer),而京东则称之为BDM。

SSA层直接复制源系统(如从MySQL中读取所有数据并导入到与源结构相同的Hive表中)的数据,力求保持业务数据的原始样貌。与源系统不同的是,SSA中的数据会加入时间戳信息,从而记录多个版本的历史数据。

SOR(Standard Operational Repository)是根据3NF范式规则开发的表结构模型。它是数据仓库中最细节数据的存储层次,并根据不同的主题域对数据进行分类存储。例如,高校数据统计服务平台将全校数据按人事、学生、教学和科研四大主题在SOR层中存储。

A(Semi-Martix Adaptaiton Layer)作为SOR和DM(Data Mart Layer)之间的过渡层。由于SOR数据高度规范化,进行查询需进行大量关联操作;同时DM中数据的粒度较高,需要大量汇总工作。A根据需求适度进行反规范化及汇总操作,以提高数据仓库的查询性能。

DM层直接服务最终用户。理解上可以视作是提供用户直接访问的最终汇总数据的所在地;其内含多种粒度的数据以满足不同用户的访问需求。

总体而言,无论是大型企业还是小型,数据仓库的构建均需经过精心规划与实施,以确保数据的准确性、完整性和可访问性。

...

  • 版权说明:
  • 本文内容由互联网用户自发贡献,本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 295052769@qq.com 举报,一经查实,本站将立刻删除。