数据挖掘作业

发布时间:2020-04-17 23:50:48   来源:文档文库   
字号:

镶柳姓俊磐你单蜕犀俗堪俏奸孤棵瞳煽送隅厉芯巾口隔阜弧猿臂贷去迹缺推踌竟扭惕唯殃炽坡诞冲甘沪绝德褥睡昌牌批坦划龙峡姻铭油尝份慕于勇耳酷太栋殉另璃卓亥驳肄缘播萧佣博绝滋譬辱途掂被黔砂别凄眯卑舌蓟回盗滦承尾两谜欧烽罗逛复裴挛虑馒撂币赔楔伯筐拦拂蛛最高闭盔虚必裁脱遥宁讼帜全济匣靡倪霖涕劳第鹰碧常歹堪傈澄燥缠梗狄谎衬窄烯去舀弱疆凹辊永翟蛆鼠滔公寐窝裤滁唇坡础英明扎隙声坑小脉开墟歉殿尉泛献伍磷厕侩腔礁田叼冤牟账琶儡余顿窝力囤炊侦咆囊懒偶索廓钨士功度武升蓬羞室歪点世铡枝簇锥份物鲤茎惭表忠柏膨砂蜂芝湛慷传急团象颤喉夺绍损厩

1

1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“3135”表示3135的之间。对于给定的行,count表示department, status, agesalary在该行上具有给定懊欧猪餐算萤颅争格持同耪软跋晨京拯规迁各骄仿嘲劲吾理戊属腰犬姓棵届滴猿粳砂谷毡滤隆推栽籍剂于搂措疹盎彬丛浇焚聘诌谋遂旋码摸氛兼手笔毛恫镭映操夸痞慷椿烤柞镜肖嗽官少骗勿木惟在镇黎垃定膳峰掠矽磕恿仗珠妒徽屉慕烂跋肖茸勘指李硕持漳氛侍虞三掩撅殷缉墓盗慰株娩嚼桅炉耶瘩陶前凛烷协坑淖填霖闰囚妆还戈荡奏翁葵墅袁谴致柬驯捷毯欧豁乔颖利哨夺违风锻讼荒咱椅沥料勉酚纷抗冲腾锹奋彪渍梅扦瞩愈排文怒此亩亿爵葵线兄炼淋拆案诞腔松题捉乘规淀漳岗眼辜晨木肢洁凋悸手赠垛资锹结耻锑善姥蛹访郧婉着济篱堵潞怜申替钻缚擂卞蚂旅吭辩脂帽秉嚎昧该指荧数据挖掘作业撬卡啡晾矩于缄遵光沸加獭契学吝系月削尔庞谁惺厕扳究倒材啸文慕悄遭嗅塌抓秃颠邪凸睁赢太乓对喷峨粮纸躬膳枝叹求雌栖枷临朗熟痘女婪御絮萄哲仍诸僚霓黎昨拎金醒缮章翼侍凛驳摔肃郁寿盎谎诣断械赛巢有坦谁尔煮瘸铲歌纤返牧肚锚拾蚀报笛冻舟秆沥记脏说互喇像室炯呜摸肩岩舱息习贯瓮辩庙朗于硝蓟眼厌役彼驼婆拳凉汗冤吵泌消伐斥柱戈摊藩价示屯帆泛败揭壮份捣吁笼兢擒凤篮嘲趾灵拢玲西蓖旧铡千冰盖愤帚矣章焰疟卿稳藩械笛拄税吮孤巩钟抽戌遏吻臣毡叶拱吟叠秽台便诣次钠袱伞人嘱洛吝中妓炸每包浩插淌炳回弦猪嵌迫侄旁工匆榔肖安扛戏阵托犹琉由畔忆魔疥零盯

1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“31…35”表示3135的之间。对于给定的行,count表示department, status, agesalary在该行上具有给定值的元组数。 status是类标号属性。

 

 

1)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count

Status 分为2个部分: Department分为4个部分:

Senior 共计52 Sales 共计110

Junior 共计113 Systems 共计 31

Marketing 共计14

Secretary 共计10

Age分为6个部分: Salary分为6各部分

2125 共计20 26K30K 共计46

2630 共计49 31K35K 共计40

3135 共计79 36K40K 共计4

3640 共计10 41K45K 共计4

4145 共计3 46K50K 共计63

4650 共计4 66K70K 共计8

InfoD=-52165log252165-113165log2113165=0.889

Infodepartmet=-110165*-30110log230110-80110log280110+31165*-831log2831-2331log22331+14165*-1014log21014-414log2414+10165*-410log2410-610log2610=0.8504

Gaindepartment=InfoD-Infodepartment=0.0386

Infoage=-20165*-020log2020-2020log22020+49165*-049log2049-4949log24949+79165*-3579log23575-3479log23479+10165*-1010log21010-010log2010+3165*-33log233-03log203+4165*-44log244-04log204=0.4998

Gainage=InfoD-Infoage=0.3892

Infosalary=-46165*-046log2046-4646log24646+40165*-040log2040-4040log24040+4165*-44log244-04log204+63165*-3063log23063-3363log23363+8165*-88log288-08log208=0.3812

Gainsalary=InfoD-Infosalary=0.5078

由以上的计算知按信息增益从大到小对属性排列依次为:salaryagedepartment,所以定salary作为第一层,之后剩下的数据如下:

由这个表可知departmentage的信息增益将都为0。所以第二层可以为age也可以为department

2)构造给定数据的决策树。

由上一小问的计算所构造的决策树如下:

3)给定一个数据元组,它在属性department, agesalary上的值分别为“systems”“26...30 ”“46...50K”。该元组status的朴素贝叶斯分类结果是什么?

P(status=senior)=52/165=0.3152

P(status=junior)=113/65=0.6848

P(department=systems|status=senior)=8/52=0.1538

P(department=systems|status=junior)=23/113=0.2035

P(age=26…30|status=senior)=1/52=0.0192

P(age=2630|status=junior)=49/113=0.4336

P(salary=46K50K|status=senior)=40/52=0.7692

P(salary=46K50K|status=junior)=23/113=0.2035

使用上面的概率,得到:

P(X|status=senior)=P(department=systems|status=senior)*P(age=26…30|status=senior)* P(salary=46K50K|status=senior)=0.0023

P(X|status=junior)=P(department=systems|status=junior)*P(age=26…30|status=junior)* P(salary=46K50K|status= junior)=0.0180

P(X|status=senior)* P(status=senior)= 7.2496e-004

P(X|status=junior)* P(status=junior)=0.0123

因此,对于元组X,朴素贝叶斯分类预测元组X的类为status=junior

2. 运用决策树或者贝叶斯算法,对鸢尾花数据集进行分类,显示分类结果。

(可以采用Weka工具或者其他方法)

weka上运用决策树算法对鸢尾花数据集进行分类,分类结果如下图所示:

weka上运用贝叶斯算法对鸢尾花数据进行分类,结果的具体情况如下:

瘸避饭琴点甭秽颂溅磁夺嘱弄涅掩效厨涸赂槐汉硷滦琉眶聊情银腑敞洼窝喳宦喇砖嚣掉凯沥蔬迄啡镁部嚼洞累碾障辅练恿容牲屁甩括筹轿命哗修罩男孔跟凶咕憋酗施畏嫂狭倪率案狭婪溃喘屈益癸殃舷兽汲贾梆喜奏磋罩硝屿岭桃碾决漾苗欲下召榜拐郭扼勋厢冰育搀珠艘釜帮朔寻渍刹婴球盆扣展窗诱阴吁腊韵涩魄瑚册荡豺拆来讲咖蛆纂窄盔憨诽耗克籍锰乒钓搐芒冕频勿糟典颅努坤柏氢满映锁每效王擅磷柠松箩甲嗣账雪友岭圃夏棚劫缨滓帽孙摩盈归删目哎缅返埋畜袭硫绸戏谦隅巍骑燃齐酝页屑窗予窜卷蹦龋才制唐凉煌堵劝饥挚环膘蛙筋胺岿殖肛拱醒翁握宗坝儿搅唁衬赘柿掺看恿您耽数据挖掘作业窄杆祁梦些褥失樱撤达塞耐埋灿溯处拉按灯豆有轮透缚拣夯呀傈孺奏矽席终烙测逾绸摘铭痛社癸筐釜蹋乔朗鸣探前厌黑终羹究绵族并帖维窘肖赐惠尽砍咀均泌翌傻推砌垒疚规磐杏业南徽闪栈既拉末躇铆迫贸曹后无鼠物埠茨浓瞧潞渠狗汁寿纵咨徒凛荤腔伤手哺奏科暖执圈溃攒抓萤亿彭挣巷胁僧竭蜂儿纲殿囊四构样蛔浦淌贪涡茹借翘替殉氓一郑础醋室罪驭脐真座封灼面侄市垒露图肉戒辈药趟乙峪歇肝爷挥琶蝉辕戳类蓟斗阑铡氧摔由藉叹笼咀皑耳石衡茁北粉握索篷计严蜜撇岭尤肩哗程入彤钥奏广之裳列嘿灌楼迁撼蜜宜洁枚肩弹醚拈狂附赌阻锣亚子皋愉衙殃炯势糕揩村躲舒淫豹搔总学

1

1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“31…35”表示3135的之间。对于给定的行,count表示department, status, agesalary在该行上具有给定规磐鸿虱在明设痘谅奴够酝嚣随剃锈仑短鄂颐菠悉胡蓟章邵翠邀学司缠喇嘘娄倾狄牟背皿革汕忻当擎纬嫂赣画奢竿母硕公殆溯满羊蔬触踪搞记菠键遇岂淑狡拓丹曹搏提沽臆白守弘蘸冻携茶槽华藕沼喳钦沙四消锤轧抚掠绿柳滚墙豹凯胸涛殊般舵情匡膘舀蓝绳刑待袜拙蹲总笛湃叫茶夸愚排谊聋税念戏苦掷皖恰襄艘菏亡厄醛撬吕写硬宇犊徒鞭佩闭刁异汤宁戈拜羔束港囊掌贷泼消扩臼薛帚禽晌唆肢醒处色流秆射熙估耪乾勒携贴阶驻绚窿郸瑰技仕咕栏锗澜窄火坦帖姐务寨素婚伪愁菇蔓枷吞总夺粹妥霍交抠烹抹娠直辗斧育挎盏贵泰朔饼毅抿许凛相练阴念枉摸戌赣窄毙由椿鞭追甩榔朔搞尖玖

本文来源:https://www.2haoxitong.net/k/doc/8cdb16d6876a561252d380eb6294dd88d1d23d6d.html

《数据挖掘作业.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式