论大数据理论的基本原理及其价值创造

发布时间:2020-07-28   来源:文档文库   
字号:


论大数据理论的基本原理及其价值创造
华南师范大学 陈俊欢
1. 步入大数据时代
如今,我们已经进入了一个大数据的时代。Facebook2012年平均每个月300亿条内容被创建,每天处理的数据量多达500TB1TB=1000GB。并且至今Facebook已存1400亿张图片,今年将增700亿张。YouTube公布数据显示,目前用户每分钟上传的视频长度为72小时。eBay的分析平台每天处理的数据量高达100PB1PB=1000TB超过了纳斯达克交易所每天的数据处理量。外根IDC(际数据的监测统计,2011年全球数据总量已经达到1.8ZB(1ZB等于1万亿GB而这个数值还在以每两年翻一番的速度增长,预计2020年全球将总共拥有35ZB的数据量,增长近20倍。
事实上大数据绝不仅仅是数据的总量增大了,大数据指的是以一种集合的形式来包含所有数据,其大小或复杂性使得无法通过常用技术以合理的成本,并在可接受的时限内对其进行捕获、管理和处理。
2. 大数据时代的成因
我们先来看看大数据时代形成的原因,并且从以下三个方面来进行解释。

2.1信息生产方式的改革

信息生产方式的变革可以从两个方面来说,一是随着电脑,手机,小型摄像机等信息生产设备的普及,每位拥有者都能很轻易地创建自己的信息;二是信息的生成方式越来越多样化,以前人们一般都是通过纸张来记录信息的,如今我们还可以用短信,语音,视频,照片,微博等丰富多样的方式把各种信息记录下来。
2.2信息传播方式的改革
传统的三种信息传播渠道(报纸,电视,广播),无论是在传播的及时性还是广度始终都受到一定的限制,然而随着互联网的出现,这种情况则完全改变了。互联网使得我们每个人都能通过网络来传播我们的信息,而且传播的速度非常快,并且能轻易到达世界上的每一个角落。
2.3信息记录方式的改革

如果按照美国国会图书馆的容量来保存信息的话,恐怕几百个美国国会图

信息生产方式变革

(信息生产者增多,信息生产形式多样)

信息传播方式变革 (特别是互联网的出现)

书馆也装不下一个Facebook公司的数据。但是随着信息存储技术的发展,我们不仅能够把如此庞大的数据给生产出来,而且还能把他很完整的保存起来。 因此,在这三者的影响下,我们进入大数据时代的条件已经被满足了。
大数据时代
信息存储方式变革 (主要依靠科学技术)

3. 大数据理论的本质依据
自从人类诞生之始,我们就不停地探索着世界的运行规律,随着我们探索的越多,我们所了解的也越多。“知道更多”可以说是我们人类存在的一个终极追求,千万年来我们无时无刻不做着这件事情。这时或许有人会反驳说,我们除了知道结果还应该知道过程,或者说是还应该知道他们之间的一种关系,这并没有错,但事实上我们要知道过程的原因也只是为了以后能更加便捷地知道更多的 结果。
毫无疑问,这个世界的运行总是遵循着某一规律的,即自然之规律。所谓规律,其实可以分为三种。一者是恒常规律,如日出日落,生老病死,绝无异常;二者是混沌规律,凡事不可捉摸,无法确定;三者即为浮动规律,有迹可循却又无法准确把握。
恒常规律

混沌规律
浮动规律
实际当中,恒常规律和混沌规律都是极少出现的,那么则可以说无论是在我们的生活领域还是经济领域上最常会出现的一个规律就是浮动规律。事实上这一点几乎所有人都知道,也都隐含于每个人的意识之中。那么,这样的一条规律或者说这样的一种意识又会对我们造成了怎样的影响呢?

让我们先来看看我们现在主流的方法是如何来认知我们所在世界的规律的。通常我们会遇到某一个问题,比方说公司的市场份额下降了,然后我们马上会找出其内在的原因,收集数据样本作出分析,接着就会制订出一系列的指导方案,再去执行,最后再来印证实施的情况是否符合原假设,如果符合则代表我们的认知是正确的,反之如果不符合则又要从新构造模型,建立假设。


(印证)

Why
How (探索)

What (得知)
运行规律


诚然,在数据量小的时候,这种精确性的因果分析研究是唯一可行的方法,因为上文已经提到我们这个世界的运行规律本来就是浮动性的,如果分析过程再不要求精准,那么最终的结果更是相差甚远。然而事实上,这种基于有限样本的因果关系分析只是在数据量较小时的一种无奈之举。不仅操作过程非常麻烦,且推测结果的有效性也往往难以得到保证。
然而,如果我们拥有了足够的海量的数据,情况就会变得完全不同了。无论一件事情它有着多么复杂或隐秘的内在规律,但是只要这件事情一旦发生了,就一定会有所表现,也就是说它会表现出这件事情所拥有的特征。就比如使人感到难过的原因有千种万种,错综复杂,或许我们根本就无法探至。但是不论如何,只要一个人感到难过了,他就一定会表现出难过所拥有的特征,例如落泪,一言不发,甚至是独自喝酒.......又比如说这个月浅绿色的衣服突然变得好卖了,这件事情的原因可能非常复杂,但是无论其成因到底是怎样,我们只需要知道浅绿色衣服的销量增加了,接着我们就采购更多的浅绿色衣服就行了。当数据量小的时候,我们总会是寻求因果关系分析,想知道产生这些情况的原因到底是什么,事实上这可能很难,甚至我们根本连这些现象都未必能发现的了。但是借助于大数据的力量,我们能从无数的例子当中得出:如果一个人落泪了或者是流露出闷闷不乐表情,那么他很有可能是感到难过了。并且浅绿色的衣服销售量猛增,们也是通过统计全部的数据才得知的。所以大数据理论真正的魅力就是在于它把所有的理论分析全部都屏蔽掉了,我们无需再从构建假设入手,分析,计划,实施,最后印证这样一步步地推演过来,它直接就能够把最终的结果告诉你。 实际上大数据理论的核心依据就是表现理论。在1884年,心理学家威廉·姆斯提出了一种特殊的学说,这个学说认为,情绪只不过是对于身体所发生的变化的感觉,如果没有了身体变化(如肌肉紧张、心中加剧)等,也就没有什么情绪。这种学说我们可以称之为表现理论,关于这种理论的正确性我们暂且不论,但是如果我们将这个理论引伸一下,就能够得出一个有趣并且极其重要的结论:我们能够通过一个事物所表现出来的特征来认识该事物。然而,这样一个简单的结论却足以颠覆我们的思维模式!因为我们不需要再从原点开始一步一步地分析下去得出结论,如果我们能够收集到足够多的数据,那么这些大量的数据就能够很完整地把该件事物描绘出来,这样最终的结论就显而易见了。


推演

逻辑

结论
特征 反映

正向
反向
理论研究

(因果关系)
大数据分析
(相关关系)

4.大数据理论思想
4.1数据量更大(核心思想:数据的量变到质变)


上文已经论及大数据理论的依据就在于表现理论,当数据总量较小时(样本模式),样本的数据不足以准确完整地反映该事物,因此这样的样本不能满足表现理论,而只能用来推演和预测。然而当数据量的规模足够大或者是在全数据模式下,当它超过了表现理论所需的临界值,我们就能够直接用大数据来描述该事物了。

4.2数据形式更杂(核心思想:混杂即能更全面)
随着信息时代的到来,信息的特征也在发生着重要的变化。 4.2.1信息的记录形式越来越丰富(多样化)
包括语音,视频,电子邮件,GPS记录的地理位置信息,微博上面发的内容等等。
4.2.2信息之间的组合方式越来越多(非结构化)
据调查,未来10年结构化数据的增速约为32%,而非结构化数据的增速则将达到63%,非结构化信息将占到未来10年新生数据的90%。例如我们要收集一个人的信息,除了他的姓名,电话号码,家庭地址等结构化信息,还可以借助互联网查看他的网页浏览记录,在Facebook上查看他的社会交际网以及上传的图片或者发布的信息等等。

4.3数据反映的关系更直接(核心思想:关联物—预测的关键)
事物的内在规律是通过一系列的特征而表现出来的。

模型一(目标已知 关键点:关联性
特征一




特征三 特征五




特征二
特征四
特征六
从目标纷繁的表象中找出与之最相关的一个作为关联物。


模型二(目标未知) 关键点:交叉性


特征一
特征二
特征三
特征四
特征五


通过数据之间的交叉与组合来发现新的问题,创造新的价值。
大数据理论模式的总结:
1. 数据总量更大
表现理论的临界线


2. 特征数据更加全面

(混杂)




相关关系
数据量变
数据质变
5. 大数据的价值创造
在大数据技术与大数据思维的影响下,传统的交易行为将会发生重大的改变,并且从中创造出巨大的价值。
大数据价值创造的应用包括两个方面,分别从企业和顾客的角度出发将大数据应用分为顾客大数据和商品大数据。顾客大数据是指企业收集顾客的信息而建立起来的一种大数据营销模式;商品大数据是指消费者借助企业所提供的大数据服务来为自己做消费规划和消费决策。 在顾客大数据中,企业先收集顾客的历史交易数据,还有通过顾客关系管理所收集到的的交互数据,然后通过技术处理对数据进行分析,得出用户的特征,洞察用户的喜好,建立顾客档案。还可以使用一些其他的方法,收集顾客的网站浏览数据、社交数据和地理追踪数据等,使得消费者描述更加完整更加细致。一旦在我们的数据库中有了完整的顾客描述之后,我们就能用数据来分析顾客的购物行为并且准确地预测他们下一步的消费。另外,我们通过顾客的消费信息研究其购买习惯,并且能识别出潜在的更有价值的目标群体。进一步,我们就能够
优化自身的营销策略,调整商品库存与商品之间的组合,向目标顾客推荐他们最感兴趣的产品和服务,从而达到个性化的精准营销。在这个过程中,企业能够把自身的资源最大程度地利用起来,减少了不必要的资源浪费,还能使得每位顾客都享受到了最贴心最个性化的服务,甚至企业还能从中挖掘出潜在的新的价值。
然而另一方面,在传统的交易过程中,消费者一方往往会处于“信息洼地”的不利位置。但是随着大数据的发展,消费智能将会成为一个重要的趋势。智能消费是企业将数据分析作为一种服务提供给消费者,而不是像在商业智能时代,数据仅被用作企业内部的业务分析和决策支持。在传统的消费过程中,顾客都是根据以往自身的购物经验来进行消费的,这其实又是一个从分析,计划,实施,最后再到检验的一种传统认知模式。但是在大数据所带来的新型消费模式下,种情况也会得到改变。诚然依靠顾客自己是很难收集到大量的数据的,而且也完全没有必要。但是这种数据服务可由企业来提供,并且相关的数据分析处理过程也交由企业来完成。比如在日用品行业,如果有顾客想要购买一瓶洗发水,他首先就会依据以往的购物经验来作出选择,如果他想要尝试新的品牌那么他只好听从销售员的推荐。但是在大数据支持下的智能型消费模式则完全不同,首先顾客会依据自己的喜好来为洗发水做特征描述,例如想要什么功效什么香味等等,且输入自己可接受的价格范围,这时企业后台的大型数据库系统就会做出数据分析,找出最符合顾客描述的商品,以及该商品以往的销售记录和销售趋势,并且连接互联网在网上自动搜寻其他顾客对该商品的评价。除此之外,企业还能为顾客提供个人的消费规划建议,根据搜集到的消费记录告诉顾客每个月应该在什么时候需要购置什么商品,商品的价格趋势会怎么变动,在什么时候买哪些商品才能得到最大的优惠等等。
总而言之,企业通过开发一些应用或工具,支持终端的顾客做相关的规划,而顾客在使用这些工具时,企业也会捕捉相应的数据和场景,重新设计相应的产品和服务。因此,智能型消费就形成了企业利用数据与顾客沟通的新模式,顾客使用这些数据服务支持个人决策,形成最合理最个性化的个人消费规划,反过来企业也能在此过程中收集更多的数据信息并且与顾客建立良好的伙伴关系,这样对企业长远的发展将会更加有利。

预测顾客 的消费行为
优化自身 的营销策略
(顾客大数据)
建立顾客档案 完整的客户描述
交易数据
个性化营销
企业
CRM 交互数据
(商品大数据)
顾客
智能型消费

本文来源:https://www.2haoxitong.net/k/doc/989330b64228915f804d2b160b4e767f5bcf804f.html

《论大数据理论的基本原理及其价值创造.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式