改进的随机森林分类方法及其应用

发布时间:2021-02-26 21:18:22   来源:文档文库   
字号:

改进的随机森林分类方法及其应用

随机森林算法(RF)是一种将决策分类树综合起来的预测及分类的算法,RF首先将众多分类树汇总起来,进而提高模型精度,由于随机森林利用的是Bootstrap方法进行抽样,进而产生许多个Bootstrap样本,建立新的分类模型,但是Bootstrap抽样方法也有它自身的缺点,降低了随机森林模型的效率和精确度。文章提出将改进的Bootstrap方法(BLB)运用到随机森林模型中,减少评估估计质量的计算成本,提高其分类预测的效率。

标签:随机森林;机器学习;BLB重抽样;数据挖掘

引言

在数据和信息急剧膨胀的今天,人们可以很容易的获取数据和信息,如何对这些数据做有效处理,从中挖掘出有价值的信息,在原有统计分析和数据挖掘工具的基础上,进行进一步优化研究是大数据处理领域的热点问题之一。分类分析一直是数据挖掘中的热点问题之一,但是由于单分类器自身的限制,有学者开始提出将众多分类器的分类结果通过某种方式整合在一起, 产生随机森林算法。 在大数据的背景之下,Ishwaran等人[1]之前验证过随机森林的一致性及收敛性,并认为随机森林在高维数据等方面[2]明显优于其余分类方法。BreimanBagging集成学习理论[3]Kam的随机子空间方法[4]结合起来,并且对随机森林方法从原理及应用等方面进行了详细的论述。

1 改进的随机森林分类方法

1.1 BLB算法

BLB抽样方法[5]是在Bootstrap的基础上进行改进的重抽样方

1.2 改进的随机森林的算法步骤

1)采用BLB重抽样方法重复抽取n个样本,将其作为一个训练集;(2)建立决n棵决策树,使用基尼指数作为进行评估,形成不需要剪枝的完整树;(3)将测试集的测试结果采用多数投票法(Majo

rity Voting),得票最多的类别就是分类结果。

2 改进的随机森林算法的应用

自然界中,探险者发现了三种肉眼分不太清的形态相似的植物,首先我们找到四个量度指标(W1W2W3W4),然后通过运行改进的随机森林算法的程序进行种类识别。表1给出了具体数据。

本文来源:https://www.2haoxitong.net/k/doc/d8164ee628f90242a8956bec0975f46527d3a7b5.html

《改进的随机森林分类方法及其应用.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式