hadoop构建数据仓库(一)

一、数仓的定义

二、操作系统和分析系统

操作型系统是一类专门用于管理面向事务的应用的信息系统。
例如:MIS、OA、几乎所有的互联网线上系统。
事务:事务是工作于数据库管理系统(或类似系统)中的一个逻辑单元,该逻辑单元
中的操作被以某种独立于其他事务的可靠方式所处理。事务一般代表着数据改变,它
提供“ all or nothing "操作,就是说事务中的一系列操作要么完全执行,要么
完全不执行。
事务的使用目的:
(1)保证工作单元的可靠性。当数据库系统异常看机时,其中执行的操作或者已经
完成或者只有部分完成,很多没有完成的操作此时处 种模糊状态。在这种情况下,数
据库系统必须能够恢复到数据一致的正常状态。
(2)提供并发访问数据库的多个程序间的隔离。如果没有这种隔离,程序得到的结
果很可能是错误的。根据事务的定义,引申出事务具有原子性、 致性、隔离性、持久
性的特点,也就是数据库领域中常说的事务的 ACID 特性。
分析型系统 是一种快速回答多维分析查询的实现方式。

分析型系统的典型应用包括销售业务分析报告、市场管理报告、业务过程管理(BPM)、
预算和预测、金融分析报告及其类似的应用。
设计分析性数据库时应该考虑的问题:
·表分区 可以独立定义表分区的物理存储属性,将不同分区的数据存放到 多个物理
文件上,这样做一方面可以分散;另一方面,当数据非常大时,方便数据维护;再有
就是利用分区消除查询数据时,不用扫描整张表,从而提高查询性能
·住图索引,当查询条件中包含低基数(不同值很少 ,例如性别)的列,尤其是包含
有这些列 or and not 这样的逻辑运算时,或者从有大量行的表中返回大量的行应
考虑位图索
·物化视图 物化视图物理存储查询所定义的数据,能够自动增量刷新数据,并且可以
利用查询重写特性极大地提高查询速度,是分析型系统常用的技术。
·并行化操作。可以在查询大量数据时执行并行化操作,这样会导致多个服务器进程
为同一个查询语句工作,使用该查询可以快速完成,但是会耗费更多的资源。
经验分享 程序员 微信小程序 职场和发展