您现在的位置是:首页 >技术杂谈 >数据挖掘(7.1)--数据仓库网站首页技术杂谈
数据挖掘(7.1)--数据仓库
目录
引言
数据仓库的历史可以追溯到20世纪60年代,当时计算机领域的主要工作是创建运行在主文件上的单个应用,这些应用以报表处理和程序为特征,一般使用早期的程序设计语言如Fortran或COBOL编写。主文件存储在廉价的磁带上面,其缺点是只能顺序访问。到了20世纪70年代,随着计算机技术的发展,数据库管理系统(DBMS)开始出现,用于管理数据和改善访问效率。
1975年,Sperry Univac推出了MAPPER,这是一个数据库管理和报告系统,其中包括世界上第一个专为建设信息中心而设计的平台4GL,这是当代数据仓库技术的先驱。到了20世纪80年代,随着个人计算机(PC)和第四代编程语言(4GL)等更为新颖的技术出现,数据仓库的概念开始出现。
一、数据库
1.简介
数据库因数据处理的需要而产生。例如,在20世纪60年代后期,美国为了战争的需要,将各种情报收集在一起,存储隐藏在计算机内,这就是数据库的起源。随着计算机技术的发展,数据库从文件系统阶段发展为数据库阶段,再到高级数据库阶段。现在,数据库已经广泛应用于实际应用、计算机技术和网络技术中,如分布式数据库、面向对象数据库和网络数据库等。
数据:数据库中存储的基本对象,用于描述事物的符号记录
数据库:以一种结构化的方式存储数据的文件系统
数据库由表组成,表由记录组成,记录由字段组成
①:域
②:记录
③:数据
2.数据库管理系统(DBMS)
使用户可以定义,创建和维护数据库并且提供数据库受控访问的一个软件系统。
例如:DB2, Oracle, MS SQL Server, MySQL, MS Access
DBMS的重要功能:
数据存储, 检索 (SQL), 和更新(创建/插入,读取,更新,删除)
事务支持,确保对应一个给定的事务所有更新都做了或者都没
并发控制服务,确保当多个用户同时更新数据库时,数据库正确更新
二、数据仓库
数据仓库是一种语义上一致的仓库,可作为一个决策支持数据模型的物理实现,存储企业作出的战略决策所需要的信息。数据仓库被看做是一个建筑,通过整合来自多个异构数据源而构建,用来支持结构或即席查询,分析报告和做出决策.
数据仓库特征
数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。
面向主题的
(1)围绕重要的课题或主题,如顾客.产品和销售。
(2)着眼于决策者的数据建模和分析,而不是日常对数据的操作或事务处理。
(3)通过排除对决策支持过程中无用的数据,提供一个围绕特定主题的简明的意见。
集成的
(1) 数据仓库的建立是通过集成和整合多个不同的异构数据源,数据源包括关系型数据库、数据文件和联机事务记录等。
(2)在数据仓库的建立过程中,数据清洗和数据集成技术得到应用。其目的是为了保证在集成不同数据源时,保证数据在命名规则、编码结构和属性度量等方面的一致性。此外,当数据被放人数据仓库时,数据往往经过了一定的转换。
时变的
(1)在时间层面上数据仓库中的数据明显地比操作性数据库中的数据存储时间要长,其表现为操作性数据库中的数据往往存储的是当前的数据,而数据仓库是从历史数据的角度提供数据。例如,数据仓库中存储的是5~10年之间的数据,而操作性数据库中存储的是当前时间段的数据。
(2)在数据仓库中,关键结构都显式或者隐式地包含时间元素。与之不同的是,在操作性数据库中,关键结构不一定包含时间元素。
非易失的
(1)数据仓库物理地分开存放数据,而这些数据都来源于操作性数据库,最极端的情况下,如果数据仓库中的数据被损坏了,还可以通过操作性数据库中的数据信息进行恢复。
(2)在数据仓库中,通常的操作行为如更新数据不会发生。此外,数据仓库并不需要事务处理、恢复、并发控制机制等操作。数据仓库中只有两种类型的数据操作方式:初始化装载数据和访问数据。
数据仓库作用
提升客户关注度
- 购买模式、购买偏好
微调生产策略
- 重新配置产品和管理产品组合
分析业务操作和寻找利润来源
管理客户关系
数据仓库和DBMS对比
OLTP (On-Line Transaction Processing,联机事务处理):传统相关DBMS的主要任务。日常运作:购买、库存、金融、生产制造、工资单、登记、会计等
OLAP (On-Line Analytical Processing,联机分析处理):数据仓库系统的主要任务、数据分析和决策
OLTP和OLAP的主要区别
(1)处理对象:
- OLTP是面向顾客的,为顾客提供事务处理和查询处理等操作;
- OLAP是面向市场的,为数据分析人员提供数据分析的支持。
(2)数据内容:
- OLTP处理的数据是当前详细的数据;
- OLAP处理的数据是历史的数据,合并集成统一后的数据。
(3)数据库的设计:
- OLTP系统是采用“实体关系"模型,也就是ER图的数据模型和面向应用的数据设计;
- OLAP往往采用星型模式和面向主题的数据库设计。
(4)视图:
- OLTP关注的是当前和本地的数据,而不去关注历史的数据信息;
- OLAP关注的数据是不同演变和不同数据源集成过来的数据信息。
(5)访问模式:
- OLTP中访问模式包括对数据的更新、查询等操作,这种操作需要并行化的控制和恢复机制;
- OLAP的数据访问模式主要是只读操作,而且这种读操作大部分是比较复杂的查询操作。
分离数据仓库和数据库
提高两个系统的高性能
- DBMS ——OLTP(查询、并发控制、恢复)
- 数据仓库——OLAP (复杂的OLAP查询)
不同功能和不同数据
- 决策支持需要历史数据,而业务数据库并没有保存