返回首页
当前位置: 主页 > 互联网技术 > 数据挖掘 >

数据挖掘:概念与技术 学习笔记

时间:2014-10-04 00:23来源:电脑教程学习网 www.etwiki.cn 编辑:admin

一个算法是可规模化的,如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据库大小线性增加。

 

1.3 数据挖掘——在何种数据上进行

原则上讲,数据挖掘可以在任何类型的信息存储上进行。这包括关系数据库、数据仓库、事务数据库、先进的数据库系统、展平的文件和WWW。先进的数据库系统包括面向对象和对象-关系数据库;面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库。

 

1.3.1关系数据库

数据库系统,也称数据库管理系统(DBMS),由一组 内部相关的数据,称作数据库,和一组管理和存取数据的软件程序组成。软件程序涉及如下机制:数据库结构定义,数据存储,并行、共享或分布的数据访问,面对系统瘫痪或未授权的访问,确保数据的一致性和安全性。

关系数据库是表的集合,每个表都赋予一个唯一的名字。每个表包含一组属性(列或字段),并通常存放大量元组(记录或行)。关系中的每个元组代表一个被唯一关键字标识的对象,并被一组属性值描述。语义数据模型,如实体-联系(ER)数据模型,将数据库作为一组实体和它们之间的联系进行建模。通常为关系数据库构造ER模型。

关系数据库是数据挖掘的最流行的、最丰富的数据源,因此它是我们数据挖掘研究的主要数据形式。

 

1.3.2数据仓库

数据仓库是一个从多个数据源收集的信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造。

通常数据仓库用多维数据库结构建模。其中,每个维对应于模式中一个或一组属性,每个单元存放聚集度量,如count或sales_amount。数据仓库的实际物理结构可以使关系数据存储或多维数据方。它提供数据的多维视图,并允许快速访问预计算的和汇总的数据。

数据集市和数据仓库的区别:数据仓库收集了整个组织的主题信息,因此,它是企业范围的。另一方面,数据集市是数据仓库的一个部门子集。它聚焦在选定的主题上,是部门范围的。

通过提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理(OLAP)。OLAP操作使用数据的领域背景知识,允许在不同的抽象层提供数据。这些操作适合不同的用户。OLAP操作的例子包括下钻和上卷。它们允许用户在不同的汇总级别观察数据。

尽管数据仓库工具对于支持数据分析是有帮助的,但是仍需要更多的数据挖掘工具,以便进行更深入的自动分析。

 

1.3.3事务数据库

一般地,事务数据库由一个文件组成,其中每个记录代表一个事务。通常,一个事务包含一个唯一的事务标志号(trans_ID),和一个组成事务的项的列表。事务数据库可能有一些与之相关联的附加表,包含关于销售的其他信息,如事务的日期、顾客的ID号、销售者的ID号、销售分店,等等。

 

1.3.4 高级数据库系统和高级数据库应用

关系数据库系统广泛地应用于商务应用。随着数据库技术的发展,各种先进的数据库系统已经发现并在开发中,以适应新的额数据库应用需要。

新的数据库应用包括处理空间数据(如地图)、工程设计数据(如建筑设计、系统部件、集成电路)、超文本和多媒体数据(包括文本、图像和声音数据)、时间相关的数据(如历史数据或股票交换数据)和万维网(Internet使得巨大的、广泛分布的信息存储可以利用)。这些应用需要有效的数据结构和可规模化的方法,处理复杂的对象结构、变长记录、半结构化或无结构的数据,文本和多媒体数据,以及具有复杂结构和动态变化的数据库模式。

为相应这些需求,开发了先进的数据库系统和面向特殊应用的数据库系统。这些包括面向对象和对象-关系数据库系统、空间数据库系统、时间和时间序列数据库系统、异种和遗产数据库系统、基于万维网的全球信息系统。

面向对象数据库

面向对象数据库基于面向对象程序设计范例。用一般术语,每个实体被看作一个对象。每个对象关联:

一个变量集,它描述数据。这对应于实体-联系和关系模型的属性。

一个消息集,对象可以使用它们与其他对象,或与数据库系统的其他部分通讯。

一个方法集,其中每个方法存放实现一个消息的代码。一旦收到消息,方法就返回一个响应值。

共享公共特性集的对象可以归入一个对象类。每个对象都是其对象类的实例。对象类可以组成类/子类层次结构,使得每个类代表该类对象共有的特性。

对象-关系数据库

对象-关系数据库基于对象-关系数据模型构造。该模型通过提供复杂对象的丰富数据类型和对象定位,扩充关系模型。此外,它还包含关系查询语言的特殊构造,以便管理增加的数据类型。通过增加处理复杂数据类型、类层次结构和如上所述的对象继承,对象-关系模型扩充了基本关系模型。对象-关系数据库在工业和应用正日趋流行。

在面向对象和对象-关系系统中的数据挖掘具有某些类似性。与关系数据挖掘相比,需要开发新的技术,处理复杂对象结构、复杂数据类型、类和子类层次结构、特性继承以及方法和过程。

空间数据库

空间数据库包含涉及空间的信息。这种数据库包括地理(地图)数据库、VLSI芯片设计数据库、医疗和卫星图像数据库。空间数据可能一光栅格式提供,由n维位图或像素图构成。例如,一个2维卫星图像可以用光栅数据表示,每个像素存放一个给定区域的降雨量。地图也可以用向量格式提供,其中,路、桥、建筑物和湖泊可以用诸如点、线、多边形和这些形状形成的分化和网络等基本地理结构表示。

时间数据库和时间序列数据库

时间数据库和时间序列数据库都存放与时间相关的数据。时间数据库通常存放包含时间相关属性的数据。这些属性可能涉及若干时间标签,每个都具有不同的语义。时间序列数据库存放随时间变化的值序列。

 

文本数据库和多媒体数据库

文本数据是包含对象文字描述的数据库。通常,这种词描述不是简单的关键词,而是长句子或短文本,如产品介绍、错误或故障报告、警告信息、汇总报告或其它文档。文本数据库可能是高度非规格化的,有些文本数据可能是半结构化的。通常具有很好结构的文本数据库可以使用关系数据库系统实现。

------分隔线----------------------------
标签(Tag):数据挖掘
------分隔线----------------------------
推荐内容
猜你感兴趣