返回首页
当前位置: 主页 > 互联网技术 > 数据挖掘 >

什么是数据挖掘?

时间:2014-10-04 00:25来源:电脑教程学习网 www.etwiki.cn 编辑:admin

简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。该术语实际上有点用词不当。注意,
从矿石或砂子挖掘黄金称作黄金挖掘,而不是砂石挖掘。这样,数据挖掘应当更正确地命名为“从
数据中挖掘知识”,不幸的是它有点长。“知识挖掘”是一个短术语,可能不能强调从大量数据中
挖掘。毕竟,挖掘是一个很生动的术语,它抓住了从大量的、未加工的材料中发现少量金块这一过
程的特点。这样,这种用词不当携带了“数据”和“挖掘”,成了流行的选择。还有一
些术语,具有和数据挖掘类似,但稍有不同的含义,如数据库中知识挖掘、知识提取、数据/模式分
析、数据考古和数据捕捞。
什么是数据挖掘? - 牛妞 - welcome
 
图数据挖掘:在你的数据中搜索知识(有趣的模式)
许多人把数据挖掘视为另一个常用的术语“数据库中知识发现”或KDD 的同义词。而另一些
人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程如图1.4 所示,由以
下步骤组成:
1. 数据清理(消除噪音或不一致数据)
2. 数据集成(多种数据源可以组合在一起)
3. 数据选择(从数据库中提取与分析任务相关的数据)
4. 数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作)
1 信息产业界的一个流行趋势是将数据清理和数据集成作为预处理步骤执行,结果数据存放在数据仓库中。
2 有时,数据变换和数据统一在数据选择过程之前进行,特别是在数据仓库情况下。
5. 数据挖掘(基本步骤,使用智能方法提取数据模式)
6. 模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式;)
7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
什么是数据挖掘? - 牛妞 - welcome
 
 
图数据挖掘视为知识发现过程的一个步骤
数据挖掘步骤可以与用户或知识库交互。有趣的模式提供给用户,或作为新的知识存放在知识
库中。注意,根据这种观点,数据挖掘只是整个过程中的一步,尽管是最重要的一步,因为它发现
隐藏的模式。
我们同意数据挖掘是知识发现过程的一个步骤。然而,在工业界、媒体和数据库研究界,“数
据挖掘”比较长的术语“数据库中知识发现”更流行。因此,在本书中,我们选用术语数据挖掘。
我们采用数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据
挖掘有趣知识的过程。
基于这种观点,典型的数据挖掘系统具有以下主要成分:
􀂄数据库、数据仓库、或其它信息库:这是一个或一组数据库、数据仓库、展开的表、或其它类
型的信息库。可以在数据上进行数据清理和集成。
􀂄数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关
数据。
􀂄知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分
层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使
用这种知识,根据非期望性评估模式的兴趣度。领域知识的其它例子有兴趣度限制或阈值和元
数据(例如,描述来自多个异种数据源的数据)。
􀂄数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征、关联、分类、
聚类分析、演变和偏差分析。
􀂄模式评估模块:通常,该部分使用兴趣度度量(1.5 节),并与挖掘模块交互,以便将搜索聚
焦在有趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估模块也可以与挖掘模块
集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,建议尽可能地将模
式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上。
􀂄图形用户界面:该模块在用户和挖掘系统之间通讯,允许用户与系统交互,指定数据挖掘查询
或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,该
成分还允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模
式可视化。
什么是数据挖掘? - 牛妞 - welcome
 
图典型的数据挖掘系统结构
从数据仓库观点,数据挖掘可以看作联机分析处理(OLAP)的高级阶段。然而,通过结合更
高级的数据理解技术,数据挖掘比数据仓库的汇总型分析处理走得更远。
尽管市场上已有许多“数据挖掘系统”,但是并非所有的都能进行真正的数据挖掘。不能处理
大量数据的数据分析系统,最多称作机器学习系统、统计数据分析工具或实验系统原型。一个系统
只能够进行数据或信息提取,包括在大型数据库找出聚集值或回答演绎查询,应当归类为数据库系
统,或信息提取系统,或演绎数据库系统。
数据挖掘涉及多学科技术的集成,包括数据库技术、统计、机器学习、高性能计算、模式识别、
神经网络、数据可视化、信息提取、图象与信号处理和空间数据分析。在本书讨论数据挖掘时,我
们采用数据库观点。即,着重强调大型数据库中有效的和可规模化的数据挖掘技术。一个算法是可
规模化的,如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据库大小线性增加。
通过数据挖掘,可以从数据库提取有趣的知识、规律、或高层信息,并可以从不同角度观察或浏览。
发现的知识可以用于决策、过程控制、信息管理、查询处理、等等。因此,数据挖掘被信息产业界
认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科。
 

------分隔线----------------------------
标签(Tag):数据挖掘
------分隔线----------------------------
推荐内容
猜你感兴趣