spark数据格式

发布时间:2018-07-01 04:37:02   来源:文档文库   
字号:

Spark 集成算法的数据格式即评估方法

注:

(1)LabeledPoint LabeledPoint数据格式是Spark自己定义的一种数据格式,他的原型是LIBSVM(台湾大学副教授开发的一种简单、易用和快速有效的SVM模式识别与回归的软件包)输入数据的格式类型。LabeledPoint是一种标签数据,数据结构分为label features两部分。具体结构为,label index1:value1 index2:value2 ...其中label为标签数据,index1index2为特征值序号,value1value2为特征值

(2) 自定义:Spark目前没有一个通用的类去评估回归模型,只是在例子中自己写的一个小方法去评估模型,方法如下:

val loss = predictionAndLabel.map { case (p, l) => //预测结果为p和标签值为l

val err = p l //通过p-l获得误差值err

err * err //误差平方

}.reduce(_ + _) //把所有误差平方相加求平方和

val rmse = math.sqrt(loss / numTest) //平均样本误差

本文来源:https://www.2haoxitong.net/k/doc/61fdac49b7360b4c2e3f645b.html

《spark数据格式.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式