hadoop构建数据仓库(一)
一、数仓的定义
二、操作系统和分析系统
操作型系统是一类专门用于管理面向事务的应用的信息系统。 例如:MIS、OA、几乎所有的互联网线上系统。 事务:事务是工作于数据库管理系统(或类似系统)中的一个逻辑单元,该逻辑单元 中的操作被以某种独立于其他事务的可靠方式所处理。事务一般代表着数据改变,它 提供“ all or nothing "操作,就是说事务中的一系列操作要么完全执行,要么 完全不执行。 事务的使用目的: (1)保证工作单元的可靠性。当数据库系统异常看机时,其中执行的操作或者已经 完成或者只有部分完成,很多没有完成的操作此时处 种模糊状态。在这种情况下,数 据库系统必须能够恢复到数据一致的正常状态。 (2)提供并发访问数据库的多个程序间的隔离。如果没有这种隔离,程序得到的结 果很可能是错误的。根据事务的定义,引申出事务具有原子性、 致性、隔离性、持久 性的特点,也就是数据库领域中常说的事务的 ACID 特性。 分析型系统 是一种快速回答多维分析查询的实现方式。 分析型系统的典型应用包括销售业务分析报告、市场管理报告、业务过程管理(BPM)、 预算和预测、金融分析报告及其类似的应用。 设计分析性数据库时应该考虑的问题: ·表分区 可以独立定义表分区的物理存储属性,将不同分区的数据存放到 多个物理 文件上,这样做一方面可以分散;另一方面,当数据非常大时,方便数据维护;再有 就是利用分区消除查询数据时,不用扫描整张表,从而提高查询性能 ·住图索引,当查询条件中包含低基数(不同值很少 ,例如性别)的列,尤其是包含 有这些列 or and not 这样的逻辑运算时,或者从有大量行的表中返回大量的行应 考虑位图索 ·物化视图 物化视图物理存储查询所定义的数据,能够自动增量刷新数据,并且可以 利用查询重写特性极大地提高查询速度,是分析型系统常用的技术。 ·并行化操作。可以在查询大量数据时执行并行化操作,这样会导致多个服务器进程 为同一个查询语句工作,使用该查询可以快速完成,但是会耗费更多的资源。