小度写范文大数据修仙【还我数据】模板

发布时间:   来源:文档文库   
字号:
大数据修仙【还我数据】







数字化vs纸质英国广播公司(BBC
1986年为了纪念原版《末日审判书》出版900周年,花费了250万英镑,开展了“末日审判项目(DomesdayProject)”――一个现代版的《末日审判书》900年前的《末日审判书》是1086年威廉一世下令对英国土地使用情况进行大规模调查的结果汇编。900年后,为了“末日审判项目”,超过100万英国人贡献了文本、照片和视频资料。考虑到这些资料应当永久保存下去,于是它们被存储在两张定制的光盘上,并使用BBC的特殊计算机阅读显示,以便后人能了解20世纪人们的生活情况。但仅仅15年后,当有人试图使用同样的计算机来阅读光盘上的资料时,却没有成功。与此同时,那本抄写在羊皮纸上的原版《末日审判书》却还依然保存在英国档案馆里,900多年后的今天,凡是懂得拉丁文的人都可以翻阅。同样,那些十几年前把数据存储在5.25英寸软盘上或使用WordStar格式文本的人现在都面临着与BBC“末日审判项目”相似的问题,除非我们采取有效的保护措施,否则,大批已经生成的数字信息极有可能在我们有生之年就无法读出和使用了。这种情况不能完全归咎于计算机行业越来越快的更新换代,实际上,数字存储技术天生就存在缺陷。200411月,美国国家档案记录局电子档案处的处长曾公开承认,将电子资料保存10年以上(更不用说永远保存),“仍然是全球性的难题。各国政府、大公司以至个人,都还解决不了。数据劫难美国加州圣何塞的数据存储顾问TomCoughlin说,如果把硬盘从电脑上拆下来后放在办公室的架子上,它最终可能将无法使用。他解释说,因为每天的温度有变化,能跑到存储介质里面去,会慢慢引起存储信息的磁性颗粒出现自发逆转,直到原始

数据丢失。不过,一般前10年不会出现数据丢失的问题,10年后,谁也说不准数据何时就会变得无法使用。TomCoughlin说,磁带也面临同样的问题,但一般几十年后才会因热擦除而丢失数据,那是由于磁带的比特密度低于硬盘。但是,磁带也有自己的问题:脱层。当磁性介质与磁带脱离,或者受到霉菌侵蚀时,就会出现脱层。有时候,磁带介质不得不重新经过烘焙工艺,以便能最后一次读取数据,并将其内容迁移到另外的介质上。USB闪存盘也会受到热擦除的影响,并且还面临着更大的风险,因为它们用的是最廉价的控制器。TomCoughlin说:“我不会将USB闪存盘用于归档。”如果使用USB闪存盘归档,那就要祈求USB端口在几十年后仍能使用,而谁也不知道笔记本电脑在20年后将会是啥样,更不用说50年后了。至于DVDCD,美国国会图书馆的项目经理BillLeFurgy说,他所在的单位曾用烤箱对DVDCD做了加速老化试验,结果发现,其盘片之间存在着很大的差异,就连同一品牌的盘片之间也有很大差异。他说:“有些寿命可以达10年,而另外一些的寿命却短得多。5年后,我就要担心可靠性了。”他存储专业人士也抱怨,DVD的传输速度太慢,不适合于归档。DVD的传输速度通常不到磁带的1/4;另外,每存储数GB内容,就要更换DVD盘片。与其他存
储介质一样CDDVD同样存在阅读器在几十年是否还在的问题在线存储的生命力那么在线存储如何呢?在线存储时,当硬件设备启动后,可立即访问。其中的数据不断受到检测,以确保其完整性,并易于复制。但美国斯坦福大学图书馆负责“大量拷贝确保数据安全LOCKSS”项目的首席科学家DavidS.H.Rosenthal却抱怨,在线存储也可能很快遭到损坏,眼下还看不到具有归档所必需的长期可靠性。Rosenthal调查了让1PB的在线存储数据在100年后仍可使用的可能性达到50%有何要求。他在分析了众多存储服务商发布的有关

磁盘维护的数据后发现,要达到1PB数据在100年后仍可使用的目标,在线存储的可靠性必须提高10亿倍。他指出,就算我们真的有望把在线存储的可靠性提10亿倍,也根本没有现实的方法来测试这样一种系统,总不能给它接通电源,然后等上100年吧?由于数字化数据的存活率如此之低,所生成的数字格式的信息又如此之多,“50年后我们可能会面临数字黑暗时代,将来的学者们将无法了解我们现在的文化。”美国电影艺术与科学学院(奥斯卡颁奖组织)的科学和技术委员会理事AndyMaltz说。数据保存标准由于日渐意识到这个问题,众多组织一直在致力于解决归档问题,着重研究如何减小格式过时带来的风险。防止格式过时通常需要编制元数据词典。元数据是指有关文件的信息,与文件一同存储。那样一来,将来的用户不会像科学家在1999年那样陷入困境:他们无法解读含有美国宇航局在1975年火星探测数据的磁带。最终是科学家找到了一些打印资料,才得以分析出大约1/3的数据。除了标准外,还有一个更棘手的管理问题。网络存储工业协会(SNIA)的发言人DonaldPost,也是总部设在芝加哥的专门从事档案管理的Imerge咨询公司的合伙人,他说:“大多数组织都无法告诉你,某些电子内容要保留多久;只有5%10%的组织在用足够详细的元数据对内容进行标记”,以便员工知道数据要保留多久。与此同时,在试图保留的数据中有80%是重复数据,但它们并没有花时间来丢弃这些重复数据。95%的组织认为,进行例行备份就是足够有效的保护了。DonaldPost说,企业IT经理们没有迫切要求用商业解决方案来解决这个问题,因此,厂商们也就不急于提供相应的解决方案。不过,他预计,随着厂商们认识到数字化归档产品的商
业潜力,这种情况在今后3年内会有所改变。为数据注入活力当然,一些组织成功地应对了数字化归档这一挑战。美国国家档案馆负责电

本文来源:https://www.2haoxitong.net/k/doc/8a0a7dc973fe910ef12d2af90242a8956becaaff.html

《小度写范文大数据修仙【还我数据】模板.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式