返回首页
当前位置: 主页 > 互联网技术 > 数据挖掘 >

数据挖掘概念

时间:2014-10-04 00:12来源:电脑教程学习网 www.etwiki.cn 编辑:admin

数据挖掘的定义(从技术角度):

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

该定义包括好几层含义:

1)数据源必须是真实的、大量的、含噪声的;

2)发现的是用户感兴趣的知识;

3)发现的知识要可接受、可理解、可运用;

4)并不要求发现放之四海而皆准的知识,仅支持特定的发现问题。

 

数据挖掘定义(从商业角度):

数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

 

 

典型的数据挖掘系统应具有以下主要成分:

1)数据库、数据仓库、或其他信息库:这是一个或一组数据库、数据仓库、展开的表、或其他类型的信息库。可以再数据上进行数据清理和集成。

2)数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据;

3)知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。

4)数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析。

5)模式评估模块:通常,该部分使用兴趣度度量,并与挖掘模块交互,以便将搜索聚集在有趣的模式上,它可能使用兴趣度阈值过滤发现的模式,模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,建议尽可能地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上。

6)图形用户界面:该模块在用户和挖掘系统之间通讯,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此时,该成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化。

数据挖掘概念 - 伊凡 - little bug

 OLAP与数据挖掘比较分析

OLAP分析是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程是本质上是一个演绎推理的过程。但是如果分析的变量达到几十或上百个,那么再用OLAP手动分析验证这些假设将是一件非常困难和痛苦的事情。

数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。

数据挖掘和OLAP具有一定的互补性。再利用数据挖掘出来的结论采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么OLAP工具能回答你的这些问题。

而且在知识发现的早起阶段,OLAP工具还有其他一些用途。可以帮你探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。这都能帮你更好的理解你的数据,加快知识的发现的过程。

数据挖掘,机器学习和统计

数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处,这两门学科都致力于模式发现和预测。

数据挖掘不是为了替代传统的统计分析技术。相反,它是传统分析方法学的延伸和扩展。数据挖掘就是利用了统计和人工智能技术的应用程序,把那些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。

 

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是:

在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可用三个特征。(传统是假设驱动、数据挖掘是发现驱动)

 

数据挖掘和数据仓库

1)数据仓库和数据集市是数据挖掘的一种数据源

2)数据挖掘是数据仓库的一个应用

3)对于数据挖掘,数据仓库不是必须的

------分隔线----------------------------
标签(Tag):数据挖掘概念
------分隔线----------------------------
推荐内容
猜你感兴趣