一、选择题(本题共5道小题,每小题2分,共10分)
1.数据仓库是随着时间变化的,下面的描述不正确的是(C)。
A.数据仓库随时间的变化不断增加新的数据内容
B.捕捉到的新数据会覆盖原来的快照
C.数据仓库随事件变化不断删去旧的数据内容
D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合
2.有关数据仓库的开发特点,不正确的描述是(B)。
A.数据仓库使用的需求在开发初期就要明确
B.数据仓库开发要从数据出发
C.数据仓库的开发是一个不断循环的过程,是启发式的开发
D.在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式
3.在有关数据仓库测试,下列说法不正确的是(D)。
A.在完成数据仓库的实施过程中,需要对数据仓库进行各种测试。测试工作中要包括单元测试和系统测试。
B.当数据仓库的每个单独组件完成后,就需要对他们进行单元测试。
C.系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试。
D.在测试之前没必要制定详细的测试计划。
4.关于基本数据的元数据是指(D)。
A.基本元数据与数据源、数据仓库、数据集市和应用程序等结构相关的信息
B.基本元数据包括与企业相关的管理方面的数据和信息
C.基本元数据包括日志文件和简历执行处理的时序调度信息
D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息
6.下面关于数据粒度的描述不正确的是(C)。
A.粒度是指数据仓库小数据单元的详细程度和级别
B.数据越详细,粒度就越小,级别也就越高
C.数据综合度越高,粒度也就越大,级别也就越高
D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量
6.关于OLAP的特性,下面正确的是:(D)
(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性
A.(1)(2)(3)
B.(2)(3)(4)
C.(1)(2)(3)(4)
D.(1)(2)(3)(4)(5)
7.关于OLAP和OLTP的区别描述,不正确的是:(C)
主要是关于如何理解聚集的大量不同的数据,它与OTAP应用程序不同。
B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.
的特点在于事务量大,但事务内容比较简单且重复率高.
是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的。
8.关于OLAP和OLTP的说法,下列不正确的是:(A)
事务量大,但事务内容比较简单且重复率高
的最终数据来源与OLTP不一样
面对的是决策人员和高层管理人员
以应用为核心,是应用驱动的
技术的核心是(D)。
A.在线性
B.对用户的快速响应
C.互操作性
D.多维分析
10.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)
A.关联规则B.聚类
C.分类D.自然语言处理
11.分析型CRM的(C)功能可以让CRM对所进行的销售活动相关信息进行存储和管理,将客户所发生的交易与互动事件转化为有意义、高获利的销售商机。
A.促销管理B.个性化和标准化C.客户分析和建模D.客户沟通
12.运用关键绩效指标法设计组织关键绩效指标依次经过以下几个步骤(A)。
A.确定关键成功领域、确定关键绩效要素、确定关键绩效指标
B.计划目标、实施目标、评价结果、反馈
C.确定目标、比较目标、收集分析数据、系统学习与改进、评价和提高
D.确定长期整体目标、确定短期目标
13.什么是KDD?(A)
A.知识发现B.领域知识发现
C.文档知识发现D.动态知识发现
14.呼叫中心是一种基于(D)的一种新的综合信息服务系统。
AIT技术BCTI技术CWEB技术DCRM技术
15.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C )
A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘
16.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B)
A.分类B.聚类C.关联分析D.隐马尔可夫链
17.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A )
A.探索性数据分析B.建模描述
C.预测建模D.寻找模式和规则
18.为数据的总体分布建模,把多维空间划分成组等问题属于数据挖掘的哪一类任务?( B)
A.探索性数据分析B.建模描述
C.预测建模D.寻找模式和规则
19.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( C )
A.根据内容检索B.建模描述
C.预测建模D.寻找模式和规则
20.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)
A.根据内容检索B.建模描述
C.预测建模D.寻找模式和规则
21.下面哪种不属于数据预处理的方法?( D )
A.变量代换B.离散化C.聚集D.估计遗漏值
22.下面哪个不属于数据的属性类型( D )。
A.标称B.序数C.区间D.相异
23.在上题中,属于定量的属性类型是( C )。
A.标称B.序数C.区间D.相异
24.只有非零值才重要的二元属性被称作(C )。
A.计数属性B.离散属性C.非对称的二元属性D.对称属性
25.以下哪种方法不属于特征选择的标准方法(D)。
A.嵌入B.过滤C.包装D.抽样
26.下面不属于创建新属性的相关方法的是(C)。
A.特征提取B.特征修改C.映射数据到新的空间D.特征构造
27.下面哪个属于映射数据到新的空间的方法?( A )
A.傅立叶变换B.特征加权C.渐进抽样D.维归约
28.企业所建立的预测模型的好坏取决于模型在(A)上的表现效果。
A.得分集B.训练集C.测试集D.评价集
29.客户在经济活动中具有多重身份,下面哪一种不是其身份之一(C)。
A.行为身份B.所有权身份C.学习身份D.决策身份
30.下列四条描述中,正确的一条是(B)。
A.企业实施数据挖掘,必须要有数据仓库。
B.企业要实施数据挖掘最好的方式是请编外专家。
C.企业购买现成数据挖掘模型的一个先决条件是:该企业的产品、客户、市场定位和所买来的现成模型设计之初的假设相吻合。
D.在建模的时侯,增益最高的模型就是最好的模型。
31.数据挖掘算法以(D)形式来组织数据。
A.行B.列C.记录D.表格
32.企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是(B)。
A.数据越多越好。
B.尽可能多的适合的数据。
C.得分集数据是建模集数据的一部分。
D.以上三条都正确。
—均值类别侦测要求输入的数据类型必须是(B)。
A.整型B.数值型C.字符型D.逻辑型
34.在决策树和累计增益图的关系转化过程图中,决策树上某一页节点的增益与累计增益图上的(D)相对应。
A.线段长度 B.线段斜率C.相对应的线段长度D.相对应的线段斜率
35.企业为提升每个客户的价值,应实现(C)最优化。
A.促销活动 B.预算最优化 C.客户最优化D.三者都不是
36.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了(C)数据挖掘方法。
A.分类B.预测 C.组合或关联法则 D.聚类
37.企业成功实施数据挖掘,需要以下(B)知识或技术。
A.预先的规划B.对商业文体的理解 C.综合商业知识和技能D.都需要
38.下列哪个不是专门用于可视化时间空间数据的技术(B)。
A.等高线图B.饼图C.曲面图D.矢量场图
39.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是(D)。
A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样
40.设X={1,2,3}是频繁项集,则可由X产生(C)个关联规则。
概念分层图是(B)图。
A.无向无环B.有向无环C.有向有环D.无向有环
42.以下哪些算法是分类算法(B)。
以下哪些分类方法可以较好地避免样本的不平衡问题(A)。
神经网络
44.以下关于人工神经网络(ANN)的描述错误的有(A)。
A.神经网络对训练数据中的噪声非常鲁棒
B.可以处理冗余特征
C.训练ANN是一个很耗时的过程
D.至少含有一个隐藏层的多层神经网络
45.通过聚集多个分类器的预测来提高分类准确率的技术称为(A)。
A.组合(ensemble)B.聚集(aggregate)C.合并(combination)D.投票(voting)
46.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作(B)。
A.层次聚类B.划分聚类C.非互斥聚类D.模糊聚类
47.在基本K均值算法里,当邻近度函数采用(A)的时候,合适的质心是簇中各点的中位数。
A.曼哈顿距离B.平方欧几里德距离C.余弦距离散度
48.(C)是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。
A.边界点B.质心C.离群点D.核心点
48.检测一元正态分布中的离群点,属于异常检测中的基于(A)的离群点检测。
A.统计方法B.邻近度C.密度D.聚类技术
在最坏情况下的时间复杂度是(B)。
(m)(m2)(logm)(m*logm)
50.关于K均值和DBSCAN的比较,以下说法不正确的是(A)。
均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。
均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。
均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。
均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。
51.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)
A.探索性数据分析B.建模描述
C.预测建模D.寻找模式和规则
52.下面哪种不属于数据预处理的方法?(D)
A变量代换B离散化C聚集D估计遗漏值
二、判断题(本题共10道小题,每小题1分,共10分)
(T)1.商务智能指收集、转换、分析和发布数据的过程,目的是为了更好的决策。
(F)2.数据分析是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程。
(T)3.维是人们观察数据的特定角度,是考虑问题时的一类属性。
(F)4.独立的数据集市架构的优点是企业内数据一致,不会产生信息孤岛。
(T)5.星型模型的核心是事实表,事实表把各种不同的维表连接起来。
(F)6.企业风险分析是通过对企业的经营成本进行综合评价,拟定一个企业成本的临界值。
(T)7.衡量客户忠诚的唯一尺度就是客户是否重复或持久地购买企业的产品或者服务。
(T)8.在BI中,DW是前提和基础,负责统一数据规则的处理和存储。
(F)9.客户服务管理是对客户意见或投诉以及售前、售中、售后服务进行管理。
(F)10.平衡计分卡共包括三个层面,分别是财务层面、客户层面、内部业务流程层面。
(T)11.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
(F)12.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
(F)13.OLAP是用来协助企业对响应事件或事务的日常商务活动进行处理。
(T)14.数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。
(T)15.数据预处理是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程。
(F)16.决策树算法是国际上最早、最有影响力的决策树算法,
(T)17.平衡计分卡是从财务、客户、内部运营、学习与成长四个角度,将组织的战略落实为可操作的衡量指标和目标值的一种新型绩效管理体系。
(F)18.客户服务管理是对客户意见或投诉以及售前、售中、售后服务进行管理。
(F)19.企业绩效管理的目的在于进一步加强成本的事前控制,同时有助于通过盈亏分析,辅助产品科学的报价。
20.数据仓库的数据量越大,其应用价值也越大。F
21.啤酒与尿布的故事是聚类分析的典型实例。F
22.等深分箱法使每个箱子的记录个数相同。T
23.数据仓库“粒度”越细,记录数越少。F
24.数据立方体由3维构成,Z轴表示事实数据。F
25.决策树方法通常用于关联规则挖掘。F
算法是决策树方法的早期代表。T
是一种典型的关联规则挖掘算法。F
28.回归分析通常用于挖掘关联规则。F
29.人工神经网络特别适合解决多参数大复杂度问题。T
30.概念关系分析是文本挖掘所独有的。F
31.可信度是对关联规则的准确度的衡量。F
32.孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。T
不提供关联规则挖掘算法。F
34.决策树方法特别适合于处理数值型数据。F
35.数据仓库的数据为历史数据,从来不需要更新。T
36.数据立方体是广义知识发现的方法和技术之一。F
37.数据立方体的其中一维用于记录事实数据。T
38.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。(T)
39.图挖掘技术在社会网络分析中扮演了重要的角色。(T)
40.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。(F)
41.寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。(F)
42.离群点可以是合法的数据对象或者值。 (T)
43.离散属性总是具有有限个值。 (F)
44.噪声和伪像是数据错误这一相同表述的两种叫法。 (F)
45.用于分类的离散化方法之间的根本区别在于是否使用类信息。 (T)
46.特征提取技术并不依赖于特定的领域。 (F)
47.可信度是对关联规则的准确度的衡量。F
48.定量属性可以是整数值或者是连续值。 (T)
49.可视化技术对于分析的数据类型通常不是专用性的。 (T)
主要是基于数据仓库、联机数据分析和数据挖掘技术的应用。(F)
技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。(T)
52.商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是一个学习型系统,能自动适应商务不断变化的要求。(T)
53.数据仓库中间层OLAP服务器只能采用关系型OLAP。(F)
54.数据仓库系统的组成部分包括数据仓库、仓库管理、数据抽取、分析工具等四个部分。(F)
数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设过程中提取信息。(F)
56.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。(F)
57.聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。(F)
58.分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。(T)
59.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。(T)
法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。(F)
三、名词解释(本题共4道小题,每小题5分,共20分)
1.商务智能
商务智能是融合了先进信息技术与创新管理理念的结合体,集成企业内外数据,进行加工并从中提取能够创造商业价值的知识,面向企业战略并服务于管理层、业务层,指导企业经营决策,提升企业竞争力。
2.数据仓库
数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程。
3.数据集成
数据集成是在逻辑上或物理上把不相同来源、格式、特点的数据有机地整合,从而为企业提供全面的数据共享。
(联机分析处理)
OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。
5.数据挖掘
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取正确的、有用的、未知的、综合的以及人们感兴趣的知识并用于决策支持的过程。
6.孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数据。
7.数据规范化:指将数据按比例缩放(如更换大单位),使之落入一个特定的区域(如0-1)以提高数据挖掘效率的方法。规范化的常用方法有:最大-最小规范化、零-均值规范化、小数定标规范化。
8.聚类:是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。
:是基于关系数据库存储方式的,在这种结构中,多维数据被映像成二维关系表,通常采用星型或雪花型架构,由一个事实表和多个维度表构成。
10.数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
11.预测型知识:是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。
12.决策树:是用样本的属性作为结点,用属性的取值作为分支的树结构。它是分类规则挖掘的典型方法,可用于对新样本进行分类。
13.遗传算法:是一种优化搜索算法,它首先产生一个初始可行解群体,然后对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一代群体,并最终达到全局最优。
14.知识管理:知识管理就是对一个企业集体的知识与技能的捕获,是为增强组织的绩效而创造、获取和使用知识的过程(知识的创造、储存、分享、应用和更新)。
挖掘:Web挖掘是从大量Web文档的集合C中发现隐含的、有用的模式P的过程:C→P。
四、简答题(本题共5道小题,每小题6分,共30分)
1.实现商务智能的四个阶段是什么?
答:实现商务智能的四个阶段是数据预处理、建立数据仓库、数据分析及数据展现。(2分)
数据预处理是整合企业原始数据的第一步,包括数据抽取、转换和装载三个过程;(1分)
数据仓库则是处理海量数据的基础;(1分)
数据分析是体现系统智能的关键,一般采用OLAP和DM两大技术。(1分)
数据展现则主要保障系统分析结果的可视化。(1分)
2.数据库系统的局限性
①数据库适于存储高度结构化的日常事务细节数据。决策分析型数据是多维性,分析内容复杂。
②在决策分析环境中,如果事务处理的细节数据量太大一方面会严重影响分析效率,另一方面这些细节数据会分散决策者的注意力。
③当事务型处理环境和分析型处理环境在同一个数据库系统中,事务型处理对数据的存取操作频率高,操作处理的时间短,而分析型处理可能需要连续运行几个小时,从而消耗大量的系统资源。
④决策型分析数据的数据量大,这些数据有来自企业内部的,也有来自企业外部的。来自企业外部的数据又可能来自不同的数据库系统,在分析时如果直接对这些数据操作会造成分析的混乱。对于外部数据中的一些非结构化数据,数据库系统常常是无能为力。
3.数据仓库与数据集市的区别是什么?
数据仓库收集了关于整个组织的主题信息,因此是企业范围的。对于数据仓库,通常使用星座模式,因为它能对多个相关的主题建模;(3分)
数据集市是数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题建模。(3分)
的特点
①快速性Fast:用户对OLAP的快速反应能力有很高的要求。
②可分析性Analysis:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
③多维性Multidimensional:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。
④信息性Information:OLAP系统应能及时获得信息,并且管理大容量信息。
5.简述OLAP的基本操作有哪些?
答:OLAP的基本操作有:
1.切片和切块(SliceandDice):在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。(2分)
2.钻取(Drill):钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,钻取的深度与维所划分的层次相对应。(2分)
3.旋转(Rotate)/旋转(Pivot):通过旋转可以得到不同视角的数据。(2分)
6.简述OLAP与数据挖掘的区别和联系。
答:OLAP侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息,尽管允许用户指导这一过程。(3分)
OLAP的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。(3分)
7.何谓数据挖掘?它有哪些方面的功能?
从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。
数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。(3分)
8.在数据挖掘之前为什么要对原始数据进行预处理?
原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。
为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高挖掘效率和准确程度。
9.简述数据预处理方法和内容。
数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。
数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。
数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的重构。
数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
10.数据挖掘的六种常用算法和技术分别是什么?
①聚类分析;②分类分析;③关联分析;④序列模式挖掘;⑤回归分析;⑥时间序列分析。
11.数据挖掘中的数据需要采用哪些格式?
数据挖掘中的数据需要采用以下格式:
①所有数据应该在一个表格/数据库视图中
②每一行对应于与业务问题相关的一个案例
③忽略具有单一值/几乎单一值的列
④忽略所有行的值都不同的列
⑤删除所有同义列
⑥对于预测模型,目标列必须是可识别的
12.简述K-近邻分类法的基本思想。
答:基本思想:K-近邻分类是基于类比学习的,每个样本代表d维空间的一个点。(3分)
当给定一个未知样本时,K-近邻分类法将搜索样本空间,找出最接近未知样本的K个训练样本,这K个训练样本是未知样本的K个“近邻”。(3分)
13.关联规则挖掘能发现什么知识?简述其挖掘的基本步骤。
答:关联规则挖掘有助于发现交易数据库中不同商品之间的联系,找出顾客购买行为模式。(2分)
关联规则挖掘可以分解为两个步骤:首先找出交易项目中满足最小支持度(minSupp)的项集(称其为频繁项集);(2分)
然后由频繁项集生成关联规则,对于频繁项集A,若B?A,且置信度confidence(B?A-B)不小于最小置信度minConf,则B?A-B构成关联规则。(2分)
14.遗传算法与传统寻优算法相比有什么特点?
遗传算法为群体搜索,有利于寻找到全局最优解;
遗传算法采用高效有方向的随机搜索,搜索效率高;
遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;
遗传算法使用适应值信息评估个体,不需要导数或其他辅助信息,运算速度快,适应性好;
遗传算法具有隐含并行性,具有更高的运行效率。
15.什么是决策树?如何用决策树进行分类?
决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。
决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。
16.简述K-平均算法的输入、输出及聚类过程(流程)。
输入:簇的数目k和包含n个对象的数据集。
输出:k个簇,使平方误差准则最小。
步骤:
任意选择k个对象作为初始的簇中心;
计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;
计算各簇中对象的平均值,然后重新选择簇中心(离平均值“最近”的对象值);
重复第2第3步直到簇中心不再变化为止。
17.简述构造智能CRM系统的完整步骤。
答:构建一个完整的智能CRM系统的几个步骤:
1.整合客户信息资源:对于那些以前没有应用过任何CRM系统的企业来说,首先需要把孤立的业务系统整合到一个统一的平台之下,解决“信息孤岛”。而对于己有CRM系统的企业,则需要建立一个企业信息门户,使客户和企业能在一个统一的界面下进行数据和信息交换,从而保证客户数据的一致性。(2分)
2.建立客户数据仓库:规划数据仓库,以企业的业务模型为基础,确定需要建立能够描述主要业务主题的数据模型;设计数据仓库,根据逻辑模型和性能要求进行物理模型的设计,制定数据存储策略以及各种商业规则等;(2分)
3.构造数据分析模型:根据企业需要分析的对象和目标,构造有针对性的分析模型。(1分)
4.建立客户知识管理系统:建立一个动态的客户知识库以及制定客户知识的分发规则和保存机制。(1分)
18.何谓数据仓库?为什么要建立数据仓库?
数据仓库是一种新的数据处理体系结构,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,为企业决策支持系统提供所需的集成信息。(3分)
建立数据仓库的目的有3个:
一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。
二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。
三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。(3分)
20.简述数据仓库设计的三级模型及其基本内容。
概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。(2分)
逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。(2分)
物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。在物理数据模型设计时主要考虑的因素有:I/O存取时间、空间利用率和维护代价等。
提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。(2分)
21.何谓聚类?它与分类有什么异同?
聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。(3分)
聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。(3分)
22.何谓文本挖掘?它与信息检索有什么关系(异同)。
文本挖掘是从大量文本数据中提取以前未知的、有用的、可理解的、可操作的知识的过程。它与信息检索之间有以下几方面的区别:(1分)
1方法论不同:信息检索是目标驱动的,用户需要明确提出查询要求;而文本挖掘结果独立于用户的信息需求,是用户无法预知的。
2着眼点不同:信息检索着重于文档中字、词和链接;而文本挖掘在于理解文本的内容和结构。
3目的不同:信息检索的目的在于帮助用户发现资源,即从大量的文本中找到满足其查询请求的文本子集;而文本挖掘是为了揭示文本中隐含的知识。
4评价方法不同:信息检索用查准率和查全率来评价其性能。而文本挖掘采用收益、置信度、简洁性等来衡量所发现知识的有效性、可用性和可理解性。
5使用场合不同:文本挖掘是比信息检索更高层次的技术,可用于信息检索技术不能解决的许多场合。一方面,这两种技术各有所长,有各自适用的场合;另一方面,可以利用文本挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。(5分)
23.遗传算法与传统寻优算法相比有什么特点?
遗传算法为群体搜索,有利于寻找到全局最优解;
遗传算法采用高效有方向的随机搜索,搜索效率高;
遗传算法处理的对象是个体而不是参变量,具有广泛的应用领域;
遗传算法使用适应值信息评估个体,不需要导数或其他辅助信息,运算速度快,适应性好;
遗传算法具有隐含并行性,具有更高的运行效率。(6分)
24.商务智能应用趋势
①更成熟的数据分析和展现技术;②从战略型的BI到操作型或者实时型的BI;③关注绩效、关注价值、关注数据质量。
25.商务智能发展的特点
①实时;②标准化;③嵌入式商务智能;④移动商务智能;⑤大众化趋势;⑥供应商的动向;⑦易用性。
26.商务智能与知识管理的区别:
①内涵不同;②知识的管理过程和技术不同;③关注的只是类型不同;④面向的用户不同。
日志挖掘的应用
①获取用户访问模式信息,理解用户的意图和行为
②分析用户的存取模式,为用户提供个性化的服务
③确定网站的潜在客户群,合理制订网络广告策略等
④改进Web站点的结构,使网站点随时间、用户需求的变化而不断调整
⑤对日志数据进行多种统计,包括频繁访问页、单位时间访问频度、访问量的时间分布等
⑥利用关联规则确定相关Web查询(查询修正)
五、计算题(本题共2道小题,每小题10分,共20分)
1.word/media/image1_1.png的协方差矩阵word/media/image2_1.png的特征值和特征向量分别为:word/media/image3_1.png,word/media/image4_1.png,word/media/image5_1.png,求X的主成分,计算其贡献率。
解:(1)X的主成分是:
word/media/image6_1.png,
word/media/image7_1.png,
word/media/image8_1.png(6分)
(2)第1主成分的贡献率为word/media/image9_1.png
第1,2主成分的贡献率为word/media/image10_1.png(4分)
2.对于贷款申请的决策树,
(1)请从下图的决策树中提取分类规则。
word/media/image11.gif
(2)根据决策树判断如下数据的风险分类。
解:(1)请从下图的决策树中提取分类规则。
1)当收入小于等于40000元,如果工作时间大于5年的为低风险;
2)当收入小于等于40000元,工作时间小于等于5年的为高风险;
3)当收入大于40000元,没有高负债的为低风险;
4)当收入大于40000元,具有高负债的为高风险;(6分)
(2)根据决策树判断如下数据的风险分类。(4分)
3、给定如下要进行聚类的元组:{2,4,10,12,3,20,30,11,25},假设分为2类,即K1=2,初始时用前两个数值作为类的均值:m=2和m=4。
(1)应用K-均值聚类法写出聚类的详细过程(利用欧几里德距离进行计算)。
(2)应用K-近邻分类法计算元组x=16属于哪一类?设距离最近的元组为3个,即K2=3。
解:(1)
由于均值不再变化,所以均值已经收敛了。该问题的答案为:K1={2,3,4,10,11,12}和K2={20,30,25}(5分)
(2)因为
D(2,16)=14; D(4,16)=12; D(10,16)=6; D(12,16)=4; D(3,16)=13;
D(20,16)=4; D(30,16)=14; D(11,16)=5; D(25,16)=9;(4分)
距离16最近的3个元组为11,12,20,其中,11,12属于K1,20属于K2,所以:X=16属于K1类。(5分)
六、论述题(共10分)
1、试举例一个商务智能的应用案例,并论述商务智能能为企业做什么?
2、下列每项活动是否是数据挖掘任务?简单陈述你的理由。
根据性别划分公司的顾客。
根据可赢利性划分公司的顾客。
预测投一对骰子的结果。
使用历史记录预测某公司未来的股票价格。
(a)根据性别划分公司的顾客。
不是。数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术服务用来探查大型数据库,发现先前未知的有用模式。还可以预测未来观测结果,例如,预测一位新的顾客是否会在一家百货公司消费100美元以上。但并非所有的信息发现任务都被视为数据挖掘,数据挖掘与信息检索不同,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索领域的任务,它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。数据挖掘的任务可分为两大类:预测任务和描述任务。主要任务有四种:聚类分析,关联分析,异常检测,和预测建模。其目的是根据其它属性的值,预测特定属性的值,或导出概括数据中潜在联系的模式,主要是预测某些信息。而根据性别划分公司的顾客,只是一种简单的数据库查询操作,并没有涉及预测分析。
根据可赢利性划分公司的顾客。
不是。根据可赢利性划分公司的顾客是使用阈值进行的一种统计计算。它仅仅是根据消费结果统计将原有顾客进行划分,只是一种统计的结果,而没有根据这些结果的特点预测一个新的顾客的赢利性,这种预测才是数据挖掘。
预测投一对骰子的结果。
不是。因为骰子的六个数值出现的可能性是相同的,这是一种概率计算,如果结果出现的可能性是不确定的,不相同的,则更像是数据挖掘的任务,但在很早以前利用数学已经能够很好的解决这个问题了。所以预测投一对骰子的结果不属于数据挖掘的任务,不带有发现新信息的预测特点。
使用历史记录预测某公司未来的股票价格。
这是数据挖掘的任务。可以通过对历史记录特点的分析来创建一种模型预测未来的公司的股票价格,这是数据挖掘任务中预测建模的一个例子,预测建模涉及以说明变量函数的方式为目标变量建立模型,有两类预测建模任务:分类,用于预测离散的目标变量;回归,用于预测连续的目标变量dmj预测某公司未来的股票价格则是回归任务,因为价格具有连续值属性。
3、比较急切分类(如,判定树、贝叶斯、神经网络)相对于懒散分类(如,k-最临近、基于案例的推理)的优缺点。
答:决策树归纳的特点:(1)决策树归纳是一种构建分类模型的非参数方法,它不要求任何先验假设,不假定类和其他属性服从一定的概念分布。(2)找到最佳的决策树是NP完全问题,可以采用一种贪心的、自顶向下的递归划分策略建立决策树。(3)已构台构建决策树技术不需要昂贵的计算代价,决策边界是直线(平面)。(4)决策树算法对于噪声的干扰具有相当好的鲁棒性,采用避免过分拟合的方法之后尤其如此。(5)冗余属性不会对决策树的准确率造成不利的影响。(6)决策树方法会存在数据碎片问题。(7)子树可能在决策树中重复多次。(8)当决策树很小时,训练和检验误差都很大,称为模型拟合不足;当规模变得太大时,即使训练误差还在继续降低,但是检验误差开始增大,称为模型过分拟合。(4分)
贝叶斯网络(BBN)的特点:(1)BNN提供了一种用图形模型来捕获特定领域的先验知识的方法,网络还可以用来对变量间的因果依赖关系进行编码。(2)构造网格可能既费时又费力,但一旦网格结构确定下来,添加新变量就十分容易。(3)贝叶斯网络很适合处理不完整的数据。(4)因为数据和先验知识以概率方式结合起来了,所以该方法对模型的过分拟合问题是非常鲁棒的。(4分)
人工神经网络(ANN)的特点:(1)至少含有一个隐藏层的多层神经网络是一种普适近似。(2)ANN可以处理冗余特征,对训练数据中的噪声非常敏感。(3)ANN权值学习使用的梯度下降方法经常会收敛到局部极小值。训练ANN是一个很耗时的过程,而测试样例分类时非常快。(4分)
基于密度的聚类(DBSCAN)优缺点:(1)它是相对抗噪声的,并且能够处理任意形状和大小的簇。当近邻计算需要计算所有的点对邻近度时,DBSCAN的开销可能很大。(4分)
K均值的优缺点:K均值并不适合所有的数据类型。它不能处理非球形簇、不同尺寸和不同密度的簇,尽管指定足够大的簇个数时它通常可以发现纯子簇。(4分)
通过以上急切分类和懒散分类各种方法的特点对比可知,急切分类仅仅对于某些类型的数据进入分类,而懒散分类则对于不同大小和不同类型的数据都可以进行处理。急切分类对噪声较敏感而懒散分类而不是,急切分类方法较为简单,花费的时间和空间代价都较懒散分类少。
4、假定你作为一个数据分析人员,受雇于一家移动通讯公司。通过一个例子说明打算如何使用数据挖掘技术为公司提供帮助。你的例子应包含问题描述,使用何种数据挖掘方法解决该问题,理由和预期效果(不需要定量分析)。
例子如下:首先,移动通信公司数据分析人员的主要工作是收集移动通信用户使用通信的方式,业务流量,并且收集用户的类型来分析各种用户使用信息的主要方式及销售情况,以此可以出台更加适合不同用户需求的业务套餐类型。使用数据挖掘中的聚类分析方法可以以一种较相似的主题来对结果进行分类,并且以一种更为简洁的方式呈现给用户,例如:报告聚类中最频繁出现的10个词语,来收集最多使用各种类型业务的用户特点。可以按照预先定义的分类,例如漫游类,本地外地类等等用户使用通信的方法来进行分类。利用数据挖掘中顺序关联分析可以检测出某些按照一定的高概率来查询到其他分类,并且允许更为高效的缓存,通过这种方法,可以得出具有相互关联的用户使用通信方式和业务套餐的关系,进而通过查询一种类型推导出其他相关类型的分类用户特点。通过异常检测技术可以发现不寻常的用户通信方式,例如一个新方式的更加流行。总的来说,通过数据挖掘的聚类分析可以将通信用户进行分类,然后发掘出各种类型用户使用通信的需求和最普通具用的特点,通过对以往历史信息业务的分析,聚类,可能会发现新的需求,最后所用的广告策略就可以根据这些发掘出来的新特性采取相应的调整策略以满足大多数用户的需求,吸引更多的潜在客户,出台符合这些用户需求的业务产品类型,进而使公司拥有更多的客户,有更大的发展前景。
本文来源:https://www.2haoxitong.net/k/doc/226bbb20846fb84ae45c3b3567ec102de2bddf04.html
文档为doc格式