返回首页
当前位置: 主页 > 互联网技术 > 数据挖掘 >

数据挖掘教程

时间:2014-10-04 00:27来源:电脑教程学习网 www.etwiki.cn 编辑:admin

一、创建 Analysis Services 项目
打开 Business Intelligence Development Studio。

在“文件”菜单上,指向“新建”,然后选择“项目”。

确保已选中“模板”窗格中的“Analysis Services 项目”。

在“名称”框中,将新项目命名为 AdventureWorks。

单击“确定”。

二、创建数据源

在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”。

系统将打开数据源向导。

在“欢迎使用数据源向导”页面中,单击“下一步”按钮。

单击“新建”按钮向 AdventureWorks 数据库添加连接。

系统将打开“连接管理器”对话框。

在“连接管理器”的“提供程序”列表中,选择“本机 OLE DB\Microsoft OLE DB Provider for SQL Server”。

在“服务器名称”列表中,选择承载 AdventureWorksDW 的服务器。输入您的凭据。

例如,如果在本地服务器上承载数据库,则选择 localhost。

在“选择或输入数据库名称”列表中,选择 AdventureWorksDW,再单击“确定”按钮。

单击“下一步”按钮进入向导的下一页。

在“模拟信息”页中,选择“默认值”,再单击“下一步”。

请注意,在“完成向导”页面中,数据源的默认名称为 Adventure Works DW。

单击“完成”。

新的数据源 Adventure Works DW 将显示在解决方案资源管理器的“数据源”文件夹中。

三、创建数据源视图

在解决方案资源管理器中,右键单击“数据源视图”,选择“新建数据源视图”。

系统将打开数据源视图向导。

在“欢迎使用数据源视图向导”页上,单击“下一步”。

在“选择数据源”页的“关系数据源”下,系统将默认选中您在上一个任务中创建的 Adventure Works DW 数据源。单击“下一步”。

若要创建新数据源,请单击“新建数据源”,启动数据源向导。

在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源视图中:

dbo.ProspectiveBuyer


dbo.vAssocSeqLineItems


dbo.vAssocSeqOrders


dbo.vTargetMail


dbo.vTimeSeries


单击“下一步”。

在“完成向导”页上,默认情况下,系统将数据源视图命名为 Adventure Works DW。单击“完成”。

系统将打开数据源视图设计器,显示 Adventure Works DW 数据源视图。

四、创建新的表格关系

在数据源视图设计器的数据源视图窗格中,选择 vAssocSeqLineItems 表的 OrderNumber 列。

将该列拖到 vAssocSeqOrders 表中,并将其放到 OrderNumber 列上。

现在,vAssocSeqOrders 和 vAssocSeqLineItems 表之间便存在新的多对一关系。

五、创建用于目标邮件方案的挖掘结构

在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”。

系统将打开数据挖掘向导。

在“欢迎使用数据挖掘向导”页上,单击“下一步”。

在“选择定义方法”页上,确认已选中“从现有关系数据库或数据仓库”,再单击“下一步”。

在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选择“Microsoft 决策树”。

在本教程中,您将创建数个基于这种初始挖掘结构的模型。第一个模型将在您完成该向导时与结构一起创建,且基于 Microsoft 决策树算法。

单击“下一步”。

在“选择数据源视图”页上,请注意已默认选中 Adventure Works DW。在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。

单击“下一步”。

在“指定表类型”页上,选中 vTargetMail 表旁边“事例”列中的复选框,再单击“下一步”。

在“指定定型数据”页上,确保已选中 CustomerKey 列旁边 Key 列中的复选框。

如果数据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。

选中 BikeBuyer 列旁边的“输入”和“可预测”。

当表示某列可预测时,将启用“建议”按钮。单击“建议”打开“提供相关列建议”对话框,该对话框列出与可预测列关系最密切的列。

“提供相关列建议”对话框按照各属性与可预测属性的相关性对其进行排序。值大于 0.05 的列将被自动选中,以包括在模型中。如果您同意这些建议,请单击“确定”,以便在向导中将所选列标记为输入列。对于本教程,请单击“取消”,忽略这些建议。

选中以下各列旁边的“输入”复选框:

Age
CommuteDistance
EnglishEducation
EnglishOccupation
FirstName
Gender
GeographyKey
HouseOwnerFlag
LastName
MaritalStatus
NumberCarsOwned
NumberChildrenAtHome
Region
TotalChildren
YearlyIncome
使用 Shift 键可以同时选中多列。

单击“下一步”。

在“指定列的内容和数据类型”页上,单击“检测”。

某个算法将运行此示例数字数据,并确定这些数字列是包含连续值还是包含离散值。例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围(例如 1 = < $25,000;2 = 从 $25,000 到 $50,000)。

------分隔线----------------------------
标签(Tag):数据挖掘教程
------分隔线----------------------------
推荐内容
猜你感兴趣