新榜指数(nrinewrankindex)算法说明
路漫漫其修远兮,吾将上下而求索 - 百度文库
新榜指数(NRI)算法说明
什么是新榜指数
新榜指数(New Rank Index,NRI)系由新媒体排行榜(newrank.cn)基于海量数据、用户深度反馈及专家建议而推出,用于衡量中国移动互联网渠道新媒体(主要指两微一端)的传播能力,此指数反映该新媒体主体的热度和发展趋势。
以下算法主要针对微信进行阐述:
算法简述
新榜指数是由原始数据参照基数通过计算公式推导出来的标量数值,用以衡量原始数据在其所属维度的相对表现。例如,xx点赞数为:379,我们会将这一数据和点赞常数进行比较,以确定其点赞数的相对位置,进而转换为其点赞指数,其余指标以此类推。
该算法相较于常规加权有四大优势:
1、不仅显示绝对表现,还能反映所处位置; 2、标准化后,不同维度的指标之间可以相互比较;
3、指标之间可以相互运算,从而得到综合考察各维度的新榜指数; 4、不仅可以用于账号间的比较,也可以用于账号自身的跨期比较。
算法
1、选定指标
在微信的计算中,为兼顾其数量与质量,我们使用总阅读数、最高阅读数、平均阅读数、头条阅读数、总点赞数五个指标来对账号进行评估,其中:
整体指标(总阅读数,R):指统计周期内所有发布内容的阅读数总和;
优异指标(最高阅读, Rm:是指统计周期内所有发布内容中的单篇最高阅读数; 质量指标(平均阅读数, Ra :统计周期内所有发布内容的阅读数平均值;
11
路漫漫其修远兮,吾将上下而求索 - 百度文库
主动预判指标(头条阅读, Rh :统计周期内位置为头条的内容的阅读总数; 互动指标(总点赞数,Z:统计周期内所有发布内容的点赞数总和。
2、指标标准化
基于不同维度指标的差异性,我们首先将所得数据标准化,即通过对各维度原始数据与该维度常数的比值计算,得到该样本各项指标的千分化数值。
在新榜指数中,以天为最小计算周期,将常规(1天推送一次,每次最多8篇)的公众号为对象在这一时间段内总阅读数、最高阅读数、平均阅读数、头条阅读数和点赞数共五个指标的常数分别记为:
结合新榜历史数据样本库及微信平台的发布规则——1个常规的微信公众号每天最多发布8篇,每次单篇阅读数最高为10万——我们记录80万为“总阅读数”这一指标理论上的1000分,对于某些特别账号——例如每天可以推送多次的人民日报、央视新闻,则理论上,在该指标上可以获得比1000分更高的得分。
故而:
在不同的时间周期,即日、周、月、年(n=1,7,30,365)下,以上常数具体数值为:
22
路漫漫其修远兮,吾将上下而求索 - 百度文库
在此基础上,各指标按以下公式进行标准化:
注:此处“+1”是为了避免出现类似“ 0 阅读”时而产生无效值
备注:ln为自然对数,如果a的x次方等于N(a>0,且a不等于1),那么数X叫做以a为底N的对数(logarithm),记作x=logaN。其中,a叫做对数的底数,N叫做真数。无理数e(e=2.71828...)为底的对数称为自然对数(natural logarithm),并记为ln。
33
路漫漫其修远兮,吾将上下而求索 - 百度文库
对取对数以后的数据进行线性回归,对各数据取对数之后不会改变数据的性质和关系,且所得到的数据易消除异方差问题;同时,取对数以后,经济变量具有弹性的含义,所以一般对变量取对数形式。
指标加权
由于此五项数据影响微信传播能力的程度不同,我们赋予不同的权重,分别记为 ωR , ωRm , ωRa, ωRh , ωZ 。
最终,新榜指数的计算公式表述为:
目前,我们使用的系数为 ωR =0.75, ωRm =0.05, ωRa =0.1, ωRh =0.05, ωZ =0.05。
新榜始终相信,不同类别之间的简单比较是没有意义的,所以,在发布需要跨类别比较的月榜暨“中国微信500强”时,我们会赋予类别系数,彰显渠道价值。具体系数表如下:
44
路漫漫其修远兮,吾将上下而求索 - 百度文库
算法所使用数据的统计口径
日榜的统计周期是所示日期0时至24时间,统计截止时间是次日中午12时,以确保子夜发布者亦可得到至少12小时的传播。周榜的统计周期是所示日期范围(周一0时至周日24时),统计截止时间是下一个周一的中午12时。需要特别说明的是,我们的周榜并非日榜数据的简单加总,而是重新更新并统计,以记录长尾效应。月榜、年榜亦然。
注:根据腾讯官方政策,微信影响力榜单所列微信阅读数仅指前台显示数据,且超过10万者一律显示为10