数据挖掘功能

发布时间:2019-07-04 17:01:36   来源:文档文库   
字号:

数据挖掘功能——可以挖掘什么类型的模式?

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。一般地,数据挖掘任务可以分两类:描述和预测。描述性挖掘任务刻划数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。

在某些情况下,用户不知道他们的数据中什么类型的模式是有趣的,因此可能想并行地搜索多种不同的模式。这样,重要的是,数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。此外,数据挖掘系统应当能够发现各种粒度(即,不同的抽象层)的模式。数据挖掘系统应当允许用户给出提示,指导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立,通常每个被发现的模式带上一个确定性或“可信性”度量。

数据挖掘功能以及它们可以发现的模式类型介绍如下。

1 概念/类描述:特征和区分

数据可以与类或概念相关联。例如,在AllElectronics 商店,销售的商品类包括计算机和打印机,顾客概念包括bigSpenders budgetSpenders。用汇总的、简洁的、精确的方式描述每个类和概念可能是有用的。这种类或概念的描述称为类/概念描述。这种描述可以通过下述方法得到(1)数据特征化,一般地汇总所研究类(通常称为目标类)的数据,或(2)数据区分,将目标类与一个或多个比较类(通常称为对比类)进行比较,或(3)数据特征化和比较。

数据特征是目标类数据的一般特征或特性的汇总。通常,用户指定类的数据通过数据库查询收集。例如,为研究上一年销售增加10%的软件产品的特征,可以通过执行一个SQL 查询收集关于这些产品的数据。有许多有效的方法,将数据特征化和汇总。 例如,基于数据方的 OLAP 上卷操作(1.3.2 小节)可以用来执行用户控制的、沿着指定维的数据汇总。面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必一步步地与用户交互。

数据特征的输出可以用多种形式提供。包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表。结果描述也可以用泛化关系或规则(称作特征规则)形式提供。

1.4 数据挖掘系统应当能够产生一年之内AllElectronics 花费$1000 以上的顾客汇总特征的描述。结果可能是顾客的一般轮廓,如年龄在40-50、有工作、有很好的信誉度。系统将允许用户在任意维下钻,如在occupation 下钻,以便根据他们的职业来观察这些顾客。

数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。目标类和对比类由用户指定,而对应的数据通过数据库查询提取。例如,你可能希望将上一年销售增加10%的软件产品与同一时期销售至少下降30%的那些进行比较。用于数据区分的方法与用于数据特征的那些类似。

“区分描述如何输出?”输出的形式类似于特征描述,但区分描述应当包括比较度量,帮助区分目标类和对比类。用规则表示的区分描述称为区分规则。用户应当能够对特征和区分描述的输出进行操作。

1.5 数据挖掘系统应当能够比较两组AllElectronics 顾客,如定期(每月多于2 次)购买计算机产品的顾客和偶尔(即,每年少于3 次)购买这种产品的顾客。结果描述可能是一般的比较轮廓,如经常购买这种产品的顾客80%20-40 岁之间,受过大学教育;而不经常购买这种产品的顾客60%或者太老,或者太年青,没有大学学位。沿着维下钻,如沿occupation 维,或添加新的维,如income_level,可以帮助发现两类之间的更多区分特性。

2 关联分析

“什么是关联分析?”关联分析发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事务数据分析。

更形式地,关联规则是形如X Y,即A1 ... Am B1 ... Bn的规则;其中, Ai (i{1,...,m}), Bj(j{1,...,n})是属性-值对。关联规则解释为“满足X 中条件的数据库元组多半也满足Y 中条件”。

1.6 给定 AllElectronics 关系数据库,一个数据挖掘系统可能发现如下形式的规则

age(X ,"20 29") income(X ,"20 30K")buys(X ,"CD _ player")

[support = 2%,confidence = 60%]

其中,X 是变量,代表顾客。该规则是说,所研究的AllElectronics 顾客2%(支持度)在20-29 岁,年收入20-29K,并且在AllElectronics 购买CD 机。这个年龄和收入组的顾客购买CD 机的可能性有60%(置信度或可信性)。

注意,这是一个以上属性之间(即 age, income buys)的关联。采用多维数据库使用的术语,每个属性称为一个维,上面的规则可以称作多维关联规则。

假定作为 AllElectronics 的市场部经理,你想知道在一个事务中,哪些商品经常一块购买。这种

规则的一个例子是

contains(T,"computer")contains(T,"software")

[support = 1%,confidence =50%]

该规则是说,如果事务T 包含computer_______则它也含software的可能性有50%,并且所有事务的1%包含二者。这个规则涉及单个重复的属性或谓词(即,contains)。包含单个谓词的关联规则称作单维关联规则。去掉谓词符号,上面的规则可以简单地写成computer software[1%,50%]

3 分类和预测

分类是这样的过程,它找描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象。导出模型是基于对训练数据集(即,其类标号已知的数据对象)的分析。

“如何提供导出模型?”导出模式可以用多种形式表示,如分类(IF-THEN)规则、判定树、数学公式、或神经网络。判定树是一个类似于流程图的结构,每个结点代表一个属性值上的测试,每个分枝代表测试的一个输出,树叶代表类或类分布。判定树容易转换成分类规则。当用于分类时,神经网络是一组类似于神经元的处理单元,单元之间加权连接。

分类可以用来预测数据对象的类标号。然而,在某些应用中,人们可能希望预测某些遗漏的或不知道的数据值,而不是类标号。当被预测的值是数值数据时,通常称之为预测。尽管预测可以涉及数据值预测和类标号预测,通常预测限于值预测,并因此不同于分类。预测也包含基于可用数据的分布趋势识别。

相关分析可能需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性。这些属性应当排除。

1.7 假定作为AllElectronics 的销售经理,你想根据对销售活动的反映,对商店的商品集合分成三大类:好的反映,中等反映和差的反映。你想根据商品的描述特性,如price, brand, place_madecategory,对这三类的每一种导出模型。结果分类将最大限度地区别每一个类,提供有组织的数据集视图。假定结果分类用判定树的形式表示。例如,判定树可能把price 看作最能区分三个类的因素。该树可能揭示,在price 之后,帮助进一步区分每类对象的其它特性包括brand place_made。这样的判定树可以帮助你理解给定销售活动的影响,并帮助你设计未来更有效的销售活动。

4 聚类分析

“何为聚类分析?”与分类和预测不同,聚类分析数据对象,而不考虑已知的类标号。一般地,训练数据中不提供类标号,因为不知道从何开始。聚类可以产生这种标号。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。即,对象的聚类这样形成,使得在一个聚类中的对象具有很高的相似性,而与其它聚类中的对象很不相似。所形成的每个聚类可以看作一个对象类,由它可以导出规则。聚类也便于分类编制,将观察组织成类分层结构,类似的事件组织在一起。

1.8 聚类分析可以在AllElectronics 的顾客数据上进行,识别顾客的同类子群。这些聚类可以表示每个购物目标群。图1.10 展示一个城市内顾客的2-D 图。数据点的三个聚类是显而易见的。

5 局外者分析

数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是局外者。大部分数据挖掘方法将局外者视为噪音或例外而丢弃。然而,在一些应用中(如,欺骗检测),罕见的事件可能比正规出现的那些更有趣。局外者数据分析称作局外者挖掘。

局外者可以使用统计试验检测。它假定一个数据分布或概率模型,并使用距离度量,到其它聚类的距离很大的对象被视为局外者。基于偏差的方法通过考察一群对象主要特征上的差别识别局外者,而不是使用统计或距离度量。

1.10 关于一个城市内顾客的2-D 图,显示了3 个聚类,每个聚类的“中心”用“+”标记

1.9 局外者分析可以发现信用卡欺骗。通过检测一个给定帐号与正常的付费相比,付款数额特别大来发现信用卡欺骗性使用。局外者值还可以通过购物地点和类型,或购物频率来检测。

6 演变分析

数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征、区分、关联、分类或聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析。

1.10 假定你有纽约股票交易所过去几年的主要股票市场(时间序列)数据,并希望调查高科技工业公司股份。股票数据挖掘研究可以识别整个股票市场和特定的公司的股票演变规律。这种规律可以帮助预测股票市场价格的未来走向,帮助你对股票投资作出决策。

本文来源:https://www.2haoxitong.net/k/doc/cccdc6eeb8f67c1cfad6b828.html

《数据挖掘功能.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式