本文作者:qiaoqingyi

阿里大数据之路:数据模型篇大总结(大数据之路阿里巴巴大数据实践)

qiaoqingyi 2023-01-28 567

今天给各位分享阿里大数据之路:数据模型篇大总结的知识,其中也会对大数据之路阿里巴巴大数据实践进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

7.阿里大数据——大数据建模

数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。

适合业务和基础数据存储环境的模型,大数据能获得以下好处:

大数据系统需要数据模型方法来帮助更好的组织和存储数据,以便在性能、成本、效率和质量之间取得最佳平衡。

不管是Hadoop、Spark还是阿里巴巴集团的MaxCompute系统,仍然在大规模使用SQL进行数据的加工和处理,仍然在用Table存储数据,仍然在使用关系理论描述数据之间的关系,只是在大数据领域,基于其数据存取的特点在关系数据模型的范式上有了不同的选择而已。

从全企业的高度设计一个3NF模型,用实体关系(Entity Relationship,ER)模型描述企业业务,在范式理论上符合3NF。数据仓库中的3NF与OLTP中不同过,有以下特点:

ER模型建设数据仓库的出发点是整合数据,为数据分析决策服务。建模步骤分为三个阶段:

维度建模从分析决策的需求出发构建模型,为分析需求服务,因此它重点关注用户如何更快速地完成需求分析,同时具有较好的大规模复杂查询的响应性能。其典型代表事星形模型,以及在一些特殊场景下使用的雪花模型。其设计步骤如下:

它是ER模型的衍生,其设计的出发点也是为了实现数据的整合,但不能直接用于数据分析决策。它强调建立一个可审计的基础数据层,也就是强调数据的历史性、可追溯性和原子性,而不要求对数据进行过度的一致性处理和整合。该模型由一下几部分组成:

Anchor对Data Vault模型做了进一步规范化处理,设计的初衷是一个高度可扩展的模型,其核心思想是所有的扩展只是添加而不是修改,因此将模型规范到6NF,基本变成了k-v结构化模型。组成如下:

经历了多个阶段:

大数据之路

人类从“IT时代”进入“DT时代”。本书介绍了阿里巴巴的大数据系统架构,为了满足不断变化的业务需求,同时实现系统的 高扩展性 、 灵活性 以及 数据展现的高性能 。

数据体系主要包括: 数据采集 、 数据计算 、 数据服务 和 数据应用 四大层次。

事实表包括引用的 维度 和描述具体业务的 度量 。

事实表中一条记录描述的业务的细节程度称为 粒度 。粒度可以使用两种方式来表示:(1)维度属性组合(2)所表示的具体业务含义。

事实包括可加性、半可加性和不可加性三种类型:

半可加性:只可以针对特定维度做聚合,例如库存(不能按照日期,可按照仓库聚合)。

可加性:可以按照任意维度聚合。

不可加性:完全不具备可加性。(例如:比率,事实表可以拆分存储分子分母)

维度属性也可以存到事实表中,称为 退化维度 。

事实表有三种类型:事务事实表、周期快照事实表、累计快照事实表。

事务事实表描述的是业务过程上的原子事务,也称为 原子事实表 。

周期快照事实表是按照周期性规律的时间间隔记录事实。

累计快照事实表:累计快照事实表用来表示过程开始和结束过程之间的关键步骤事件,覆盖整个生命周期,通常用多个日期字段记录关键时间点,记录会随着时间变化而修改。

事实表设计原则:

原则1: 尽可能包含所有与业务过程相关的事实。

即时存在冗余,也尽可能存储。

原则2:只选择与业务过程相关的事实。

原则3:分解不可加事实为可加的组件。

例如:不存成单率,转而存储成单数和提单数。

原则4:选择维度和事实前,必须先声明粒度。

建议粒度设置的越细越好,这样可以最大限度的提高灵活性。可以通过业务描述或者维度属性组合的方式来定义粒度。

原则5:在同一个事实表中,不应该有不同粒度的事实。

例如:一个事实表中不应该包含某些精确到订单粒度的度量,同时又包含只精确到城市的度量。

原则6:事实的单位一致。

原则7:尽量处理掉事实表中的null值。

SQL中大于,小于的条件不适用与null值,所以尽量用数值替代null,例如0.

原则8:使用退化维度增加事实表的易用性。

在Kimball的维度设计模型中,分拆出单独的维度表,为了节省存储。但是为了减少使用时的关联次数,可以多使用退化维度提供事实表易用性。

事实表设计方法:

1.选择业务过程及确定事实表类型。2. 声明粒度。3.确定维度。4.确定事实。5.冗余维度(设计退化维度)。

事务事实表,即针对业务过程构建的一类事实表,用来跟踪定义业务过程的个体行为,提供丰富的分析能力,作为数据仓库原子的明细数据。

单事务事实表,即针对每一个业务过程设计一个事实表,这样可以方便地对每一个业务过程进行分析研究。

表示同一个事实表包含不同的业务过程。多事务事实表有两种实现方法:(1)使用两个不同的事实字段来保存各自业务过程。(2)使用同一个字段保存,但是增加一个业务过程标签。

下面举例说明,淘宝交易事务事实表同时包含下单、支付和成功完结三个过程,三个过程粒度一致,可以放在一个事实表。下面确定维度和事实,该表中的下单度量、支付度量和成功完结度量信息分别存在不同字段,如果不是当前业务处理,则用0来处理。

当不同业务过程的度量比较相似、差异不大时使用第二种事实表(使用一个字段保存),当不同业务过程的度量差异大时,使用第一种(多字段保存)。

对于单事务事实表和多事务事实表的选择上,可以从以下一些方面来区分:

业务过程、粒度和维度(不同业务过程粒度相同,并且维度相似时,可以选用单事务事实表)、事实、下游业务使用、计算存储成本。电商环境下,有父子订单的概念,店铺多商品各生成一个订单,在一个店铺合成一个父订单。

1.事实完整性:事实表包含与其描述的过程有关的所有事实。

2.事实一致性:明确存储每一个事实以确保度量一致性。例如,有下单商品数和商品价格2个事实,同时保存下单金额(价格*商品数)。这样下游使用时,直接取下单金额,而不是再次计算,以保证指标的一致性。

3.事实可加性:为确保下游使用时,指标的可聚合性,尽量保存原始数,而不是计算后的比率指标。

对于事务度量,事务性事实表可以很好地表征。但是对于一些 状态度量 ,例如买卖家累计交易金额、商品库存、买卖家星级、温度(事务事实表无法聚合得到)等,事务事实表的效率较低或者无法处理。为了解决状态度量问题,引入周期性快照事实表(也称为 快照事实表 )。

1.用快照采样状态:快照事实表以预定的间隔采样状态度量。

2.快照粒度:快照事实表通常总是被多维声明,即快照需要采样的周期以及什么将被采样。

3.密度和稠密性:稠密性是快照事实表的重要特征。事务事实表一般都是稀疏的,只要发生业务才会有相应记录。

4.半可加性:快照事实表的状态度量都是半可加的,例如商品库存,只针对商品维度可加,对日期维度不可加。

设计快照事实表,首先确定快照粒度,然后确定采样的状态度量。下面介绍几个快照事实表实例。

单维度每天快照事实表、混合维度每天快照事实表,这两种快照表都可以从事务事实表汇总得到。另外的一种产出模式是直接使用操作型系统作为数据源来加工,例如淘宝卖家的星级评分是在操作型系统中计算得出的,仓库直接拿来这部分数据加入事实表。全量快照事实表,是特殊类型的周期快照表,例如设计无事实的事实表来记录评论的状态度量。

对于研究事件之间的时间间隔需求时,累计快照事实表能较好符合需求。

特点:

1.数据不断更新:例如,在下单、支付和确认收货三个业务过程中,事务事实表会生成3条记录,而累计快照表会不断更新一条记录(不生成新记录)。

2.多业务过程日期:

累计快照表适用于具有较明确起止时间的短生命周期的实体,对于每个实体都经历从诞生到消亡等步骤。

3.存储历史全量数据。

1.事件类的,例如浏览日志。

2.条件范围资格类的,例如客户和销售人员的分配情况。

主要是提前聚合,为了增加数据访问的效率(不用再聚合了),减少数据不一致的情况。这类聚集汇总数据,被称为“公共汇总层”。

聚集的基本步骤:1.确定聚集维度。2.确定一致性上钻。3.确定聚集事实。

元数据主要记录数据仓库中模型的定义、各层级间映射关系、监控数据仓库的数据状态及ETL任务的运行状态。元数据分为 技术元数据 和 业务元数据 。

阿里巴巴技术元数据包括:

数据表、列等信息;ETL作业的信息;数据同步、任务调度、计算任务等信息。数据质量和运维相关元数据。

阿里巴巴业务元数据包括:

维度属性、业务过程、指标等。数据应用元数据,例如数据报表、数据产品等。

元数据价值:

元数据在数据管理方面为集团数据在计算、存储、成本、质量、安全、模型等治理领域上提供数据支持。

阿里MaxCompute提供了archive压缩方法,采用了具有更高压缩比压缩算法,将数据以RAID file的形式存储。这样可以节省空间,但是恢复起来也更复杂,所以适用于冷备份的数据。

MaxCompute基于列存储,通过修改表的数据重分布,避免列热点,将会节省一定存储空间。

存储治理项以元数据为基础,列出例如“62天内未访问的分区”、“数据无更新的任务列表”等等管理项推动ETL优化。形成现状分析、问题诊断、管理优化、效果反馈的存储治理项优化的闭环。

生命周期管理的目的是用最少的存储成本来满足最大业务需求,实现数据价值最大化。

1.周期性删除策略:

2.彻底删除策略:主要针对无用表,ETL中间过程表。

3.永久保存策略:

4.极限存储策略:

5.冷数据管理策略:针对重要且访问频率低的数据。

6.增量表merge全量表策略:

将一个数据表的成本分为存储成本和计算成本,除此之外,上游表对该表的扫描成本也应该计入。相应的计费分别核算为:计算付费、存储付费和扫描付费。数据资产的成本管理分为数据成本计量和数据使用计费。

6.阿里大数据——数据服务

数据部门产出的海量数据,如何能方便高效地开放出去,是我们一直要解决的难题。

(1)元数据模型

数据源——物理表——逻辑表——主题

(2)架构图

看不懂

看不懂

阿里大数据之路:数据模型篇大总结(大数据之路阿里巴巴大数据实践)

阿里大数据之路:数据模型篇大总结的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于大数据之路阿里巴巴大数据实践、阿里大数据之路:数据模型篇大总结的信息别忘了在本站进行查找喔。

阅读
分享