全球大数据企业与技术全景图(上)infrastructure基础设施

发布时间:2016-06-10 23:15:35   来源:文档文库   
字号:

Hadoop

分布式计算大数据分析、云计算是一个由Apache基金会所开发的分布式系统基础架构Apache是世界使用排名第一的Web服务器软件

优点

1Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。

2Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处Hadoop按位存储和处理数据的能力值得人们信赖。

3Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

4Hadoop 还是可伸缩的,能够处理 PB 级数据Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

5高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

6此外,Hadoop成本比较低依赖于社区服务,任何人都可以使用与一体机、商用数据仓库以及QlikViewYonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

7Hadoop是一个能够让用户轻松架构和使用的分布式计算平台Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。

缺陷

新的功能与稳定性目前还需完善,需要厂商和开源社区的大力支持,同时企业内部对于Hadoop的部署和使用经验不足必须依赖于厂商的相关技术支持。Hadoop适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量Hadoop典型应用有搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等Hadoop的使用范围远小于SQLPython之类的脚本语言

Hadoop核心

Hadoop的核心就是HDFSMapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBaseHive等,这些都是基于HDFSMapReduce发展出来的。要想了解Hadoop,就必须知道HDFSMapReduce是什么。

HDFS

HDFSHadoop Distributed File SystemHadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。

优点

1、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没意思。

2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高。

3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。

4、廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。

5、硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。

MapReduce

MapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce的任务 如果计算的数组长度少的话,这样实现是不会有问题的,还是面对海量数据的时候就会有问题。MapReduce会这样做:首先数字是分布存储在不同块中的,以某几个块为一个Map,计算出Map中最大的值,然后将每个Map中的最大值做Reduce操作,Reduce再取最大值给用户。

On-Premise(本地部署)IaaS(基础设施及服务)PaaS(平台即服务)SaaS(软件即服务)

Hadoop领域3大热门初创公司——ClouderaHortonworksMapR

一、Hadoop On-Premise

Cloudera肯睿

Cloudera 公司,它是一家专业从事基于ApacheHadoop 的数据管理软件销售和服务的公司,它希望充当大数据领域中类似RedHat Linux 世界中的角色。该公司基于Apache Hadoop 发行了相应的商业版本Cloudera Enterprise,它还提供Hadoop相关的支持、咨询、培训等服务。

Cloudera系列产品介绍

1.Cloudera Manager:

有四大功能(1)管理(2)监控(3)诊断(4)集成

2.Cloudera CDH:英文名称:CDH (Clouderas Distribution, including Apache Hadoop)

Clouderahadoop做了相应的改变。Cloudera公司的发行版,我们将该版本称为CDHCloudera Distribution Hadoop)。

CDH (Cloudera Distribution Including Apache Hadoop)Cloudera的开源Apache Hadoop发行版CDH在安全性、高可用性有保障,同时可以广泛与软硬件集成。对于想要寻找一个稳定的、经过验证的开源大数据管理解决方案,又不愿被专有供应商锁定的企业来说,CDH是理想的选择。CDH是一个独特的解决方案,企业在使用Hadoop于生产环境中的同时,还能获得来自开源社区的持续创新力。

大数据不仅关乎软件,更重要的是要建立平台。这涉及底层的服务器、支撑的网络,还有上面的中间件。英特尔和Cloudera的合作,就是从中间件入手。ClouderaHadoop发行版本,是企业中被采用得最广泛的。英特尔正在将其研发IDHClouderaHadoop发行版本相结合,推出新版本的CDH,并鼓励所有用户转向CDH

CDH优点:融合了此前IDH的所有特性,并且发布一系列的服务和培训,帮助已有的客户转换到新的平台上去商业模式以软件产品为核心,特色是专业的服务于认证培训;

挑战:应对采集数据的来源多样化,采用应对多种数据格式,隐私与数据安全隐患。不能简单的开源,而是着重开放标准。

3.Cloudera Flume

FlumeCloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;

FlumeCloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力 Flume提供了从console(控制台)、RPCThrift-RPC)、text(文件)、tailUNIX tail)、syslogsyslog日志系统,支持TCPUDP2种模式),exec(命令执行)等数据源上收集数据的能力。

Flume采用了多Master的方式。为了保证配置数据的一致性,Flume[1]引入了ZooKeeper,用于保存配置数据,ZooKeeper本身可保证配置数据的一致性和高可用,另外,在配置数据发生变化时,ZooKeeper可以通知Flume Master节点。Flume Master间使用gossip协议同步数据。

4.Cloudera Impala

Cloudera Impala对你存储在Apache HadoopHDFSHBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。

5.Cloudera hue

Huecdh专门的一套web管理器,它包括3个部分hue uihue serverhue dbhue提供所有的cdh组件的shell界面的接口。你可以在hue编写mr,查看修改hdfs的文件,管理hive的元数据,运行Sqoop,编写Oozie工作流等大量工作。

优点

Cloudera也抱上了英特尔的大腿,实现与英特尔在软硬件方面的出色协调性和深度安全性与自主可控性,为客户构建更为高效、易用的大数据解决方案,让各种规模的企业都能更加轻松地从海量数据中发掘更多商业价值。Cloudera在华建立业务机构,业务涵盖直销、专业服务、客户支持、培训以及研发工作等。通过在中国建立其业务机构以提供更高效的软、硬件大数据解决方案和相关支持,Cloudera将用更优质的服务来满足中国企业级用户独特且先进的大数据管理需求。

Hadoop快速占据主流市场并成为企业数据中心的核心,这要求企业需要具备灵活的部署模型、高安全性、强大的管理系统以及敏捷的开发工具才能得以实现。在数据挖掘、处理、分析阶段等模型部署方面有独特的优势;在安全性方面,Cloudera公司已经在其软件方案中融入了众多安全措施,并且将其打造成一系列开源技术成果并作为该公司Hadoop发行版的组成部分。Cloudera还亲自推动其它技术方案的普及,包括用于管理哪些用户(或者应用)有权访问保存在Hive以及Impala环境下的数据与元数据的Apache Sentry项目。在自主管理方面,Cloudera提供了Cloudera EnterpriseCloudera Manager以及Cloudera Navigator 等管理软件,实现数据的安全性、可扩展性和易管理性。

美国家庭能源数据分析公司OpowerCloudera在北美地区的重要客户之一,Opower通过使用Cloudera大数据平台对这些智能电网海量数据进行全量分析,进而为终端用户提供更好的用电建议,也帮助电力供应商建立更有针对性的价格模型。

缺陷

对专有代码的依赖性较高,担心“厂商锁定”问题。

Hortonworks

开发、散布唯一的完全开源 Apache Hadoop 数据平台并提供支持。Hortonworks Data Platform 提供与现有 IT 资产深度集成的开源平台,并且以此为基础企业可构建并部署基于 Hadoop 的应用程序。由于自身专家技术团队比较强,对专有代码的依赖度较低。

HDP 提供企业级 HadoopHortonworks Data Platform (HDP) 完全在开源的环境下设计、开发和构建,提供企业可用的数据平台,让组织能够采用现代化数据架构。

HDP YARN 作为其架构中心,是一系列处理方法(从批量到交互式再到实时)的多个工作负荷数据处理平台,拥有企业数据平台所需的关键能力,广泛的管制、安全和运营。

Hortonworks 数据平台支持企业 Hadoop:整套企业必需的 Hadoop功能,用作任何数据平台技术的功用性定义。该整套功能针对以下功能领域:数据管理、数据访问、数据治理和集成、安全性和运算。

MapR

MapR公司是美国加州的圣何塞市的一个企业管理软件公司,主要专注于可用性和数据安全优化和开发、销售Apache Hadoop的衍生软件,对Apache Hadoop主要贡献有:HBasePig (编程语言)ApacheHive以及Apache ZooKeeperMapRApache Hadoop发行版的要求提供完整的数据保护、无单点故障,这大大的提高了其性能与易用性。MAPR亚马逊云服务选择为亚马逊弹性云EC2的升级版本。

MapR产品

MapR号称下一代Hadoop,使Hadoop变为一个速度更快、可靠性更高、更易于管理、使用更加方便的分布式计算服务和存储平台,同时性 能也不断提高。它将极大的扩大了Hadoop的使用范围和方式。它包含了开源社区的许多流行的工具和功能,例如HbaseHive。它还100% Apache HadoopAPI兼容。它能够为客户节约一半的硬件资源消耗,使更多的组织能够利用海量数据分析的力量提高竞争优势。目前有两个版本,M3M5,其中M3是免费的,M5为收费版(有试用期)。

MapR公司的CEO John Schroeder表示:“ MapR通过为Hadoop用户提供专业咨询服务来获取收入。目前公司大约一半的客户是传统的Web和基于云计算的公司,而另一半则是金融、电信和制造公司。MapR的方法不同于其他Hadoop市场的主要竞争者。最著名的套件是Cloudera,排在第二的是Hortonworks。我们希望为我们的客户提供最好的技术。几乎所有的MapR客户(92%)主要的花费在许可证上,而不是配套服务和支持。”他认为,一个成功的公司是围绕许可收入进行成长。

MapR架构

MapR认为,解决Hadoop的种种问题,要采用以下设计思想:1 集中式的meta server可扩展性不好,对应的解决方案就是使用分布式的meta server,让每个节点都变成meta server 但是这里要解决的问题是meta server不能占用太多内存,要留出足够的内存供M/R 应用来使用。2 要让每个Datanode上支持的block数量增加,同时减少block-report的大小。3 因为内存容量总是有限的,所以要减小查找服务的内存开销。4 服务能够快速重启(这样可以更好的实现HA)。

通过上述方式,MapR期望这种设计能极大的提高Hadoop的扩展能力,比如支持的节点数目从当前2000个左右扩展到10000个以上,系统文件容量从10-50PB扩展到1-10EB,文件数量从1.5亿扩展到1万亿(1 trillion)左右。同时,系统还需要支持完全的随机读写以及一系列企业应用特性,比如快照,mirror等等。MapR还期望在性能上有所突破,尽可能的榨取硬件的能力,并能对新的硬件技术(固态硬盘,万兆网卡等)提供支持。

纵观其实现,整个MapR的核心是其分布式NameNode,在MapR的设计中,分布式的NameNode又被称作Container,和Hadoop原始设计中的Namenode不一样的是,Container不仅维护了用户文件的meta data,也维护数据块。每个Container的大小在16GB-32GB之间(这也就意味着一个node上会有很多个container),同一个Container在不同node间有replica

2、Hadoop in the Cloud

AWS亚马逊云计算部门再发布了两项新服务:自动资源管理服务AWS Lambda和高性能容器管理服务EC2 Container

  AWS Lambda可根据发生的事件运行开发者的代码,并为他们自动管理计算资源,让开发者更轻松地开发和管理对新信息响应迅速的应用。AWS Lambda在图片上传、应用内活动、点击网站或联网设备的输出等事件发生后的几毫秒内开始运行代码。开发者还可以利用AWS Lambda开发新的后台服务,让计算资源根据自定义请求自动触发。开发者只需为获得服务的请求数以及运行代码所需的计算时间付费。AWS Lambda按计算时间收费,计费单位为100毫秒,因此可以经济、轻松地把应用从每天几次请求扩展到所需要的任何规模的请求。

  AWS Lambda支持包括本地库在内的任何第三方库,因而开发者无需学习任何新的编程语言、工具或框架。开发者可以直接在AWS Lambda中编辑功能,这意味着他们无需编译编辑的内容、变更构建然后重新部署,即可即时更新应用。通过AWS Lambda,开发者可以创建自己的后台并以AWS的规模、性能和安全性运行。AWS Lambda可在事件发生后的几毫秒内运行代码。由于每个事件是被作为单个功能进行处理的,因此在事件频率增加时仍可保持一致的高性能。

  EC2 Container是一项高度可扩展的高性能容器管理服务,让用户使用AWS上的容器轻松地运行和管理分布式应用。首先,EC2 Container服务支持Docker,用户可在托管的Amazon Elastic Compute Cloud (Amazon EC2)实例集群上轻松地发布、管理和扩展从一个到数十万个容器。通过EC2 Container服务,用户可以在几秒钟内启动、停止和管理数千个容器。

  AWS客户早就在Amazon EC2上部署Docker和其它轻型Linux容器。然而,为了在Amazon EC2实例集群上大规模使用它们,客户必须开发自己的软件或使用开源工具,才能为每个容器分配合适的资源、安排容器放置并监测已部署的容器。EC2 Container服务包含一组强大的API用于运行和管理容器,用户可将之作为应用的核心构件,且可获得与其他AWS服务一样的高程序性控制力和灵活性。通过EC2 Container服务,用户可以轻松地发布容器集群并指定希望运行的任务,而EC2 Container服务则会负责后续的执行。它会根据应用的需求、用户的隔离政策和可用性要求来协调和自动化容器部署,调度容器以发现最优的实例放置。此外,用户可以在实例集群上运行各种类型的应用或任务,从而提高每个集群的利用率。

三、Spark

SparkUC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

Spark Streaming:构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+),虽然比不上专门的流式数据处理软件,也可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),一部分窄依赖的RDD数据集可以从源数据重新计算达到容错处理目的。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

4、Cluster Services

集群服务。

5、NoSQLVoltDB

泛指非关系型的数据库。随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0动态网站已经显得力不从心,暴露了很多难以克服的问题,而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。

虽然NoSQL流行语火起来才短短一年的时间,但是不可否认,现在已经开始了第二代运动。尽管早期的堆栈代码只能算是一种实验,然而现在的系统已经更加的成熟、稳定。不过现在也面临着一个严酷的事实:技术越来越成熟——以至于原来很好的NoSQL数据存储不得不进行重写,也有少数人认为这就是所谓的2.0版本。这里列出一些比较知名的工具,可以为大数据建立快速、可扩展的存储库。

优缺点

NoSQL数据库可提供良好的扩展性和灵活性,但他们也有自己的不足。由于不使用SQLNoSQL数据库系统不具备高度结构化查询等特性。NoSQL其他的问题还包括不能提供ACID(原子性、一致性、隔离性和持久性)的操作。另外不同的NoSQL数据库都有自己的查询语言,这使得很难规范应用程序接口。

Amazon DynamoDB

Amazon DynamoDB 是一项快速灵活的 NoSQL 数据库服务,适合所有需要一致性且延迟低于 10 毫秒的任意规模的应用程序。它是完全托管的云数据库,支持文档和键值存储模型。灵活的数据模型和可靠的性能使其成为移动、Web、游戏、广告技术、物联网和众多其他应用的不二之选。

因为其易扩展、高性能、高可用、数据模型灵活等特色更适合互联网公司用于开发。NoSQL数据库在以下的这几种情况下比较适用:1、数据模型比较简单;2、需要灵活性更强的IT系统;3、对数据库性能要求较高;4、不需要高度的数据一致性;5、对于给定key,比较容易映射复杂值的环境。

四大分类:

键值(Key-Value)存储数据库。这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果DBA只对部分值进行查询或更新的时候,Key/value就显得效率低下了。如Redis, Voldemort, Oracle BDB.

列存储数据库。这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。如:Cassandra, HBase, Riak.

文档型数据库。文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可 以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高。如:CouchDB, MongoDb. 国内也有文档型数据库SequoiaDB,已经开源。

图形(Graph)数据库。图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如Neo4J

六大模式:

CouchDB使用的开发语言为Erlang,遵循Apache许可,使用HTTP/REST协议。主要优点是可保持数据一致性和易用性,同时允许多站部署。适用于数据变化较少,执行预定义查询,进行数据统计的应用程序。适用于需要提供数据版本支持的应用程序。

Redis使用的开发语言为C/C++,遵循BSD许可,使用Telnet-like协议。主要优点运行速度非常快。适用于数据变化快且数据库大小可遇见(适合内存容量)的应用程序, 但内存占用较大。常用于股票价格、数据分析、实时数据搜集、实时通讯。

MongoDB使用的开发语言为C++,遵循AGPL(Drivers:Apache),使用Custombinary(BSON)协议。MongoDB可在任何Mysql/PostgreSQL的环境下使用。适用于需要动态查询支持;需要使用索引而不是 map/reduce功能;需要对大数据库有性能要求;需要使用 CouchDB但因为数据改变太频繁而占满内存的应用程序。

Riak使用的开发语言是Erlang & CJavascript。遵循Apache,使用HTTP/REST协议。Riak优点是具有高容错性。适用于想使用类似 Cassandra(类似Dynamo)数据库但无法处理 bloat及复杂性的情况。适用于你打算做多站点复制,但又需要对单个站点的扩展性,可用性及出错处理有要求的情况。所以常用于销售数据录入、工控系统等一些不允许宕机的场合。

Neo4j使用的开发语言为Java,遵循GPL,其中一些特性使用 AGPL/商业许可,使用HTTP/REST协议。特点是基于关系的图形数据库, 适用于图形一类数据。这是 Neo4j与其他nosql数据库的最显著区别。 常用于社会关系,公共交通网络,地图及网络拓谱。

HBase使用的开发语言为Java,遵循Apache,使用HTTP/REST协议。HBase可支持高达数十亿的列。如果你喜爱BigTable并且需要一个能提供随机实时读写访问你海量数据的数据库,HBase是不错的选择。HBase现被Facebook邮件数据库所使用。

SequoiaDB

巨杉数据库他们做了中国第一款NewSQL数据库。“去IOE”这个概念正式火起来应该是在2013年“棱镜门”前后,由阿里巴巴提出。虽然有些政治正确的味道,但是去IOE,尤其是去Oracle,已是企业发展路上必不可少的一步,原因很简单--进入大数据时代以后,数据量不断增加,动辄数十TB,但以Oracle为代表的关系型数据库的性能在大数据量下却在持续下降。在海外,老一代关系型数据库的迭代已经进行了将近十年,但在中国这个过程却刚刚开始,SequoiaDB巨杉数据库便是推动中国数据库技术迭代和国产化的领先者。关系型数据库在存储数据时,需要对数据做大量预处理,这直接导致关系型数据库无法很好地应对PB级别的数据,同时,扩展性和访问速度都很差。但盲目去“O”容易导致一系列问题,比如研发、运维成本骤然升高,选择新厂商风险较大等,同时也容易因为强行更换数据库而导致业务停滞。2015年的数据库技术大会上曾有过数据库选型的相关分享,分享者认为,企业最好选择一款新一代分布式数据库,同时这家数据库厂商应当拥有较强的企业化能力,提供较完善的解决方案。

分布式NewSQL数据库最大的特点是能够实现多类型数据处理,既可处理关系型数据,亦可处理图片、音视频等非结构化数据,实现结构化非结构化统一存储,这意味着,用户不仅可以通过巨杉数据库实现新型分布式数据库的功能,又能完全兼容已有的传统数据库的应用。这样企业在进行数据库迭代的时候,能够实现平滑过渡,而不会“硬着陆”。而在中国,这个领域鲜有企业涉足,巨杉数据库就是其中之一。

优点

巨杉数据库于2014年底正式出现在公众视野中。支持SQL、高并发、实时性、分布式、可扩展、灵活存储的操作型NewSQL数据库。巨杉的研发者们来自IBM DB2北美实验室、华为数据库研发团队和各大互联网公司,既对原有关系型数据库有充分了解,又吸收了新一代分布式数据库领域的研发人才。“数据库产品的技术门槛是很高的,分布式架构和对象型存储再加上分布式SQL引擎,现在无论是传统关系型数据库或者是一般的NoSQL数据库都无法做到同时具备这几点。”而这样的技术实现,正是依赖于这种复合式构成的研发团队。

巨杉数据库作为一款成熟的商业化产品,成为中国第一家将商业化数据库开源的软件公司,同时巨杉还会为客户提供企业版产品,而这两点正符合前文数据库技术大会上分享者提出的数据库选型条件。对于开源是否会造成被抄袭等问题,数据库行业的门槛非常高,复制困难,我们的产品开源,正是向我们的企业用户展现我们对于产品技术的绝对主导权和“安全可控”,也展示了我们的团队的超前技术实力,同时也能够让数据库的质量持续提高,同样高技术门槛的产品使得对于系统的维护只有原厂才能驾驭。

挑战

这样一个市场可谓挑战与机会同在。挑战是,国内企业由于技术、观念等原因,对于新一代数据库的接受程度较慢。机会在于,国内传统数据库厂商由于市场技术固定、人员体量僵化等原因,难以对新兴的数据分析、BI等技术进行快速学习和吸收,难以满足大数据时代新兴的需求;国外入局者MongoDBHadoop等又容易出现水土不服,而且产品将根据海外产品的走向来发展,无法做到根据本土业务、用户需求调整产品方向。从这两点来看,巨杉虽然需要较长的时间来进行市场教育,同时也可能成为国内分布式数据库市场中的一匹黑马。

巨杉数据库作为商业化数据库产品,此前已经在金融、电信的传统行业领域得到了应用,随着商业化产品的开源,巨杉在互联网行业也得到了更多认可,目前已经获得了民生银行、广发银行、中国移动、中国电信、途牛网、360智能路由等企业客户。而巨杉数据库开源后,也培养了开发者、互联网技术用户群体,开始构建属于自己的社区和生态。据王涛透露,2015年一年中,巨杉数据库的企业客户量增长了4倍,目前达到几百家,而社区中的用户则早已过万。

六、NewSQL Databases

NewSQL 是对各种新的可扩展/高性能数据库的简称,这类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了传统数据库支持ACIDSQL等特性。

NewSQL是指这样一类新式的关系型数据库管理系统,针对OLTP(读-写)工作负载,追求提供和NoSQL系统相同的扩展性能,且仍然保持ACIDSQL等特性(scalable and ACID and (relational and/or sql -access))。

NoSQL谢幕,NewSQL登场,NoSQL将改变数据的定义范围。它不再是原始的数据类型,如整数浮点。数据可能是整个文件。NoSQL可能会吓到DBA,因为他们担心失去他们自己的领域。

NoSQL数据库是非关系的、水平可扩展、分布式并且是开源的。MongoDB的创始人Dwight Merriman表示NoSQL可作为一个Web应用服务器、内容管理器、结构化的事件日志、移动应用程序的服务器端和文件存储的后备存储。

VoltDB

分布式数据库公司VoltDB的首席技术官Michael Stonebraker表示NoSQL数据库可提供良好的扩展性和灵活性,但他们也有自己的不足。由于不使用SQLNoSQL数据库系统不具备高度结构化查询等特性。NoSQL其他的问题还包括不能提供ACID(原子性、一致性、隔离性和持久性)的操作。另外不同的NoSQL数据库都有自己的查询语言,这使得很难规范应用程序接口。Stonebraker表示数据库系统的滞后通常可归结于多项因素。诸如以恢复日志为目的的数据库系统维持的缓冲区池,以及管理锁定和锁定的数据字段。在VoltDB的测试中发现以上这些行为消耗系统96%的资源。

优点

VoltDB是一个革命性的新型数据库产品,被称作NewSQL数据库。它基于H-Store,号称比当前数据库产品的吞吐量高45倍,同时又具有很高的扩展性。它的特性主要有以下几点:

高吞吐、低延迟:通过内存计算,存储过程和串行数据访问实现

可扩展性:自动分区和复制,保证性能和可扩展性。

高可用性:同步的多主复制(VoltDB中叫K-safety)

持久化:数据库快照与命令日志(command log)的创新技术组合。

1 高吞吐、低延迟

VoltDB能够提供高吞吐、低延迟的SQL操作,总体来说,它是通过内存计算避免磁盘阻塞(disk stall),通过存储过程避免用户阻塞(user stall),通过集群结点内的数据访问串行化,避免传统数据库锁、缓冲管理的开销。此外,VoltDB并不是纯Java开发,其SQL执行引擎是C++写成的,所以并不受GC暂停的影响。

内存计算:使VoltDB事务执行期间无需等待磁盘加载,避免磁盘I/O开销。充分利用了现代服务器上庞大的内存,将吞吐量最大化。

存储过程:避免应用与数据库之间的多次通信开销,每个事务被定义成一个存储过程,因此事务只需一次通信往返。然而,VoltDB并不是只支持存储过程,从1.1版本开始已经能够支持来自JDBCSQL命令行、HTTP/JSON、原生C++/PHP/C#/Node.js等等客户端的SQL查询。唯一的限制就是:VoltDB总是自动提交模式,不支持手动控制事务。

数据访问串行化:传统数据库在前面两种阻塞等待的情况下,会切换执行其他事务,因此会导致很大的锁(latching and locking)开销。而一个VoltDB数据库由许多内存计算引擎组成(叫做partition分区),每个分区都是数据和相关处理过程的集合。VoltDB在集群内自动分发数据创建分区,每个分区内都是单线程的,从而避免了传统数据库对并发控制的开销。

C++执行引擎:VoltDB使用原生C++代码进行表数据的内存分配和SQL的执行,之所以核心不使用Java就是避免将表数据这种长时间存活的数据放置到JVM堆上,同时对内存使用进行更细粒度的控制。此外,像静态的部署相关和schema相关的数据,尽管是在Java中管理,但也使用DirectByteBuffer分配到堆外内存。所以其实JVM堆只是用来分配事务相关的一些存活期很短的数据,这对于GC来说是合适的负载。

2 扩展性架构

从架构上看,VoltDB属于shared nothing架构,因此可以很容易地实现扩展,可以通过增加已存在结点的容量和性能实现垂直扩展,通过动态增加新结点实现水平扩展,而在这个过程中不需要修改任何数据库schema和应用程序代码。

同时,VoltDB不仅支持表分区,还支持表复制。对于大表,可以通过分区来提高性能。对于频繁读取的小表,可以通过复制来减少join

这与分布式缓存GemFire中的mirrored regionpartitioned region的概念很像。在GemFire这,mirrored region包含全量数据,而partitioned region只包含分区数据。但不同的是,VoltDB是根据表的特点选择复制或分区,而GemFire则通过mirrored region将其他分区数据抓取到一起形成全量的数据镜像。

如果一个事务涉及多个分区的数据访问,那么其处理流程如下图所示。一个结点会充当协调者(coordinator),负责分发任务给其他结点,并收集结果,完成任务。

3 高可用性

不像传统RDBMS产品依赖第三方的HA解决方案,VoltDB提供三种HA能力:K-safety,网络故障检测,存活结点重连(rejoin)

3.1 K-safety

当配置成K-safety时,VoltDB会自动地复制数据库分区,K表示副本的个数。例如K=0时表示没有副本,所以任何一个结点的故障都会导致整个数据库集群的停止服务。当K=1时表示有1个副本,即一共2份拷贝。要注意的是:VoltDB中的副本是可以读写的,而不是传统的主从复制关系。

关于数据同步问题的解决,任何发生在复制分区上的操作都会发送给各个拷贝的结点去执行,来保证一致性。如果其中一个结点失败,那么数据库会继续发送这个操作给失败的结点。因此在这一点上VoltDB与传统数据库有很大不同,不存在多主(multi-master)情况下的数据同步冲突问题。所以K-safety也叫做同步多主复制。

3.2 网络故障检测

当网络发生故障时,VoltDB的结点彼此之间被物理隔离开,而认为对方已经发生故障。那么K-safety机制会使这两侧的结点继续分别提供服务。如果不及时检测到的话,这种“分离的大脑”(split brain)会导致严重的数据同步问题。因此,VoltDB会自动检测网络故障,立即评估出那一侧结点应该继续服务,并快照另一侧的结点数据后停掉服务。当网络故障解决时,可以直接使用下面将介绍到的存活结点重连技术将结点重新加入到集群中。

3.3 存活结点重连

离线的VoltDB结点可以通过rejoin操作重新加入到集群中。具体过程是:首先从兄弟结点获得一份数据拷贝,当追赶上兄弟结点时,此存活结点就可以回到正常状态,接受任务了。

4 持久化

尽管VoltDBHA能够降低当机概率,但故障还是偶尔会发生,而且DBA有时也要定期地停机维护。因此,VoltDB提供了高性能的快照和命令日志(command log)来支持各种持久化需求。对于日志,VoltDB支持同步和异步,以及刷新到磁盘的时间间隔等配置。

缺点

但这样也不代表VoltDB是万能的,其设计和特性决定了其应用场景,VoltDB比较适合高频率请求、短事务的应用,像金融、零售、Web2.0等,以及流式数据应用,像推荐引擎、实时广告平台、点击流处理、欺诈交易检测等。

七、Graph Databases

图形数据库(graphic database)是利用计算机将点、线、画霹图形基本元素按一定数据结同灶行存储的数据集合,将地图与其它类型的平面图中的图形描述为点、线、面等基本元素,并将这些图形元素按一定数据结构(通常为拓扑数据结构)建立起来的数据集合。包括两个层次:第一层次为拓扑编码的数据集合,由描述点、线、面等图形元素间关系的数据文件组成,包括多边形文件、线段文件、结点文件等。文件间通过关联数据项相互联系;第二层次为坐标编码数据集合,由描述各图形元素空间位置的坐标文件组成。图形数据库仍是目前地理信息系统中对矢量结构地图数字化数据进行组织的主要形式。

Neo4j

是一个高性能的NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。

Neo4j因其嵌入式、高性能、轻量级等优势,越来越受到关注。

你可以把Neo4j看作是一个高性能的图引擎,该引擎具有成熟和健壮的数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态的表中——但是他们可以享受到具备完全的事务特性、企业级的数据库的所有好处。 [1] 

Neo是一个网络——面向网络的数据库——也就是说,它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络上而不是表中。网络(从数学角度叫做图)是一个灵活的数据结构,可以应用更加敏捷和快速的开发模式。

八、MPP Databases

Facebook的案例看来,这是非常奇怪的两个问题。众所周知,Facebook一直是开源社区强有力的拥护者,特别是在Hadoop领域。但是,最近他们却选择了HP Vertica作为另一个核心的数据库以满足日益增长的分析需求,并且构建出了全球最大的用于生产的Vertica集群(大约300个节点,存储了大于6PB的数据量)。这件事情让我意识到,像Facebook这样的客户,自身是Hadoop的主要贡献者也是Hive的发明人(最流行的SQL-on-Hadoop数据库),拥有着最精明的程序员和几乎无尽的资源,但在可预见的未来,仍然需要Vertica这类的MPP数据库作为他们大数据技术栈的一部分。这个案例释放出的信号如此清晰而有力。显然,Facebook对上面两个问题的回答都是NO。与此同时,Facebook也将继续使用Hive/HBase和其他Hadoop技术来完成它们所擅长的任务,比如ETL、处理非结构化数据、复杂数据挖掘和深度分析。

Facebook为什么会认为MPP数据库如此重要呢?事实上,在此之前Facebook已经使用了一段时间的EDWOracle Exadata数据量大约50TB,但是逐渐感觉到现有的EDW越来越不合适,完全无法跟上快速增长的数据量的需求,特别是在移动平台越来越被广泛应用的今天。Facebook想要借助于商用MPP数据库来构建一个低成本的强健的系统,一方面是改善数据安全,另一方面是看重其扩展性和性能。他们选择MPP数据库的主要原因可以归结为以下几点:Facebook快速增长的分析需求;Map/Reduce(Hive)太慢,而且大多数分析需求的安全性无法保证;In-memory技术太贵,而且不成熟;当前SQL-on-Hadoop数据库不够好,太不成熟。

Facebook一共邀请了4家数据库厂商(包括Exadata / GreenPlum / TeraData / Vertica),进行了两轮竞争性测试。HP Vertica是最终的胜利者,它的TCO(总体拥有成本)最低,管理便捷,即席查询性能十分优异。

近年来,许多SQL-on-Hadoop数据库不断涌现,包括开源的和商用的,比如HiveHadaptCitusImpalaStingerApache Drill等等。它们使得Hadoop更像SQL,便于使用。但我的总体印象是,和市场上主流的MPP据库(比如Vertica)相比,特别是在性能方面,它们还有很长的路要走。从各人的角度来看,你可能会争辩说这个差距正在缩小,并且预言未来很快会接近。

我有足够的理由相信,SQL-on-Hadoop阵营过于高估了开源SQL优化程序(比如PostgreSQL)在HDFS上的功效,又严重低估了构建一个企业级MPP数据库所要花费的时间和精力。这是因为,企业级MPP数据库的核心优化程序和执行引擎是需要经过多年真实应用和改进才能成熟,需要经历上百个(甚至上千个)客户的验证和上百万个场景的测试和优化。这个过程必然是基于实践的总结,而不仅仅是理论和概念。查询优化从根本上讲上是一个软件问题,用硬件堆砌来改善性能的粗糙手段具有非常多的局限性。正如“MapReduce and Parallel Databases: Friends or Foes?”的作者所言,智能软件(比如MPP数据库)在Hadoop和大数据时代仍然是个好选择,在未来很长的一段时间内MPP数据库有足够的空间和机会成长和繁荣。

惠普Vertica

惠普20112月份起始321号完成收购VerticaVertica基于列存储。基于列存储的设计相比传统面向行存储的数据库具有巨大的优势。同时Vertica支持MPPmassively parallel processing)等技术,查询数据时Vertica只需取得需要的列,而不是被选择行的所有数据,其平均性能可提高50x-1000x倍。(查询性能高速度快)

Vertica的设计者多次表示他们的产品围绕着高性能和高可用性设计。由于对MPP技术的支持,可提供对粒度,可伸缩性和可用性的优势。每个节点完全独立运作,完全无共享架构,降低对共享资源的系统竞争。

Vertica的数据库使用标准的SQL查询,同时Vertica的架构非常适合云计算,包括虚拟化,分布式多节点运行等,并且可以和Hadoop/MapReduce进行集成。

惠普表示可以单独购买Vertica单纯软件包或购买与四分之一机架(96-core),半机架(192-core)和全机架(384-core)惠普刀片系统捆绑在一起的产品。

Vertica是不是取代Oracle Exadata OLTP的正确选择?当涉及到数据仓库和核心分析时Exadata可能还是好的选择。Vertica的优势在于更加精确、灵活,且维护成本要便宜很多。

惠普首席执行官李艾科表示,这款系统将“为下一代业务智能提供实时分析”,可用于网站流量分析、零售销售的趋势分析或者药物研究。Vertica的客户名单包括GroupinTwitterZyngaVerizonComcastSprintAt&T等。

9、Cloud EDW

云服务。微软、谷歌()以及亚马逊之间的云计算大战不断升温,这三家云计算服务供应商都在竭尽全力吸引那些能够带来巨额收入的大企业客户。从技术角度看,三家云计算平台基本相同,并提供类似的宣传腔调。为此,单从每家平台的技术规格来看,企业很难做出选择。

Pivotal

云计算和大数据应用公司Pivotal总经理、副总裁詹姆斯·沃特斯(James Watters)表示,这也是客户在选择云平台时,为何要基于自己的“业务逻辑”而非技术做出选择。Pivotal是戴尔与和EMC联合成立的合资公司,也是谷歌、微软以及亚马逊的合作伙伴。沃特斯说:“这就像罗尔沙赫氏测验( Rorschach test),即视对墨渍图案反应而分析性格的实验。你可以基于客户对特定云平台的喜恶,告知客户的业务优先等级。”

Pivotal首席技术官乔舒亚·麦克肯蒂(Joshua McKenty)举例称,亚马逊正进军航运和物流领域,这两个领域的许多客户正逃离亚马逊云平台Amazon Web Services。同样的道理,汽车公司也不愿意使用谷歌云平台而选择亚马逊云服务,因为前者正研发无人驾驶汽车。

在微软、谷歌以及亚马逊之间的云计算大战中,Pivotal正处于独特地位:它与亚马逊、微软以及谷歌都建立了正式的技术合作关系,以支持自己广受欢迎的Pivotal Cloud Foundry软件。Pivotal Cloud Foundry正被Home Depot和奔驰等公司使用,帮助以更快速度开发软件。这意味着,Pivotal参与到大量客户讨论中,可以帮助客户确定选择哪家云平台。这给了Pivotal关键洞察力,了解客户正以何种标准选择云平台。麦克肯蒂称,举例来说,在财富500强公司中,Pivotal与微软云服务Azure100个联合业务。他说,这远超过其他云服务供应商。微软的优势在于其与企业已经建立起牢固关系。

麦克肯蒂说,在购买WindowsOffice授权时,微软客户往往也会购买Azure服务,有时候甚至它们自己都没有意识到。鉴于微软已有的声誉,这些客户没有理由寻求其他服务,往往默认选择Azure服务。

在沃特斯看来,亚马逊的主要优势在于,身为行业内的领军力量,亚马逊可为客户提供“率先推向市场”的创新服务。与此同时,谷歌提供“最纯粹的大规模基础设施”支持。这个搜索巨头向云计算领域大量投资,这意味着它知道如何为客户提供运营其应用更先进和稳定的选择。

麦克肯蒂是谷歌粉丝。谷歌近来表示,已经准备好针对大企业客户。在谷歌云平台主管戴安妮·格林(Diane Greene)领导下,谷歌正进入企业领域。麦克肯蒂说:“我认为这是真的,谷歌只需要一点儿时间改变文化。”

沃特斯说,Pivotal Cloud Foundry的价值正快速增加,因为他支持利用大多数企业偏爱的编程语言Java开发应用。这意味着,程序员不必重新学习任何新技能,就可以与谷歌、亚马逊或微软云计算业务相配合。

沃特斯警告称,从一个云平台转向其他平台变得更容易,这也产生积极副作用。在你的新云平台上重装Pivotal Cloud Foundry,重装Java应用,重新启动,你就可支持和运行新的云平台。麦克肯蒂说,这是个宝贵的“逃生口”,可以预防亚马逊征服新的行业或你的“业务逻辑”发生改变。

优点

Pivotal大数据套件可以提供很高的性能、极致的横向扩展并发,以及针对全局分布式集群和节点的数据管理与存取一致性。Pivotal GemFire 8独特的横向扩展架构避免了传统数据库的扩展限制,可以横向扩展至很多节点和集群。对于数千并发读写请求,高达数TB的内存中数据,这一技术依然提供了低延迟响应。

  随着新版Pivotal大数据套件和Pivotal GemFire 8的发布,应用程序的运行规模和弹性比以往任何时候都要大。它有以下特性:

  内存中压缩:速度优化的内存中压缩,让单个节点可以管理的数据量比以往增加多达50%

  自动弹性伸缩和滚动升级:自动化的节点重连和数据恢复,以及在一个集群中的不同节点依次地升级软件的新能力,让集群保持持续运转,消除了升级需要的计划停机需求。

新的RESTful API:开发者可以对大量的大规模应用(例如在RubyScalaNode.js语言开发的应用)提高性能和弹性。

10、Data Transformation

数据转换

Alteryx

Alteryx成立于2010年,是一家一站式数据分析平台的初创公司,旨在同一个平台上完成数据输入、建模以及数据图形化等操作,为企业用户提供商业分析。Alteryx的产品主要有Alteryx DesignerAlteryx Server。具体来说,Alteryx Designer能帮助分析人员缩短动辄数周的传统流程,在数小时内即可以直观拖拉方式完成数据融合及分析,使用者不需要IT程式设计的背景也能使用;Alteryx Server是一个全方位的商业分析方案,让分析团队与决策主管之间有效分享所挖掘的资讯,构建一个简易、互动式的分享。Alteryx客户包括里维斯、法国BNP银行以及美国通讯商Verizon等。

Trifacta

Trifacta 是一家提供大数据清理软件服务的创业公司在整个大数据生态链中,它解决的是中间桥梁问题。一端是大数据技术底层人员在致力于数据的编译、存储和传输技术,一端是顶层的软件和服务试图在从已实现较好结构化的大量数据中提取有效信息。中间地带的数据清理大多却靠人工完成。

Trifacta 的产品是可以自动进行数据清理的数据转换平台,其关注点是创建可供多个不同平台(传统的关系式数据库、Hadoop 集群)使用的接口Trifacta 可以创建可在多个实体数据存储及处理系统上运行的 SQL 查询或 map reduce 代码。该平台提供的服务能让数据科学家从数据净化的脏累活中解脱出来。它是第一家是将后端数据技术与直观的前端用户界面成功结合起来的大数据公司。

11、Data Integration

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。在企业中,由于开发时间或开发部门的不同,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了"信息孤岛"。随着信息化应用的不断深入,企业内部、企业与外部信息交互的需求日益强烈,急切需要对已有的信息进行整合,联通“信息孤岛”,共享信息。

数据集成:数据集成通过应用间的数据交换从而达到集成,主要解决数据的分布性和异构性的问题,其前提是被集成应用必须公开数据结构,即必须公开表结构,表间关系,编码的含义等。

数据集成模型分类

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。在这里将对这几种数据集成模型做一个基本的分析。

联邦数据库系统联邦数据库系统(FDBS)由半自治数据库系统构成,相互之间分享数据,联盟各数据源之间相互提供访问接口,同时联盟数据库系统可以是集中数据库系统或分布式数据库系统及其他联邦式系统。在这种模式下又分为紧耦合和松耦合两种情况,紧耦合提供统一的访问模式,一般是静态的,在增加数据源上比较困难;而松耦合则不提供统一的接口,但可以通过统一的语言访问数据源,其中核心的是必须解决所有数据源语义上的问题。

中间件模式

中间件模式通过统一的全局数据模型来访问异构的数据库、遗留系统、Web 资源等。中间件位于异构数据源系统(数据层) 和应用程序(应用层) 之间,向下协调各数据源系统,向上为访问集成数据的应用提供统一数据模式和数据访问的通用接口。各数据源的应用仍然完成它们的任务,中间件系统则主要集中为异构数据源提供一个高层次检索服务

中间件模式是比较流行的数据集成方法,它通过在中间层提供一个统一的数据逻辑视图来隐藏底层的数据细节,使得用户可以把集成数据源看为一个统一的整体。这种模型下的关键问题是如何构造这个逻辑视图并使得不同数据源之间能映射到这个中间层。

数据仓库模式

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的和不可修改的数据集合。其中,数据被归类为广义的、功能上独立的、没有重叠的主题。这几种方法在一定程度上解决了应用之间的数据共享和互通的问题,但也存在以下的异同:联邦数据库系统主要面向多个数据库系统的集成,其中数据源有可能要映射到每一个数据模式,当集成的系统很大时,对实际开发将带来巨大的困难。

数据仓库技术则在另外一个层面上表达数据之间的共享,它主要是为了针对企业某个应用领域提出的一种数据集成方法,也就是我们在上面所提到的面向主题并为企业提供数据挖掘和决策支持的系统。

MuleSoft

MuleSoft是一家应用程序、数据和设备集成平台服务提供商,该领域当前发展势头大好,MuleSoft获得的巨额投资正显示了投资者对这一市场的看好。对于MuleSoft的服务,CEOGreg Schott称:“当前公司使用的软件系统通常是碎片化的。而我们的工作就是整合所有SaaS(软件即服务)供应商、应用程序和可连接设备,把这些碎片拼接起来。”

Informatica

Informatica(纳斯达克代码:INFA)是全球领先的独立企业数据集成软件提供商。世界各地的组织机构依赖Informatica为其重要业务提供及时、相关和可信的数据,从而赢得竞争优势。目前,全球众多知名企业依靠Informatica使用及管理其在本地的、云中的和社交网络上的信息资产,以实现他们的信息潜能,并推动卓越的业务目标。Informatica1993年创立于美国加利福尼亚州,并于19994月在纳斯达克上市。作为全球领先的独立企业数据集成软件提供商,Informatica 帮助世界各地的组织为其首要业务提供及时、相关和可信的数据,从而在当今全球信息经济中获得竞争优势。

借助Informatica全面、统一、开放且经济的数据集成平台,组织可以在改进数据质量的同时,访问、发现、清洗、集成并交付数据,以提高运营效率并降低运营成本。Informatica平台是一套完善的技术,可支持多项复杂的企业级数据集成计划,包括:企业数据集成、大数据、数据质量控制、主数据管理、B2B Data Exchange、应用程序信息生命周期管理、复杂事件处理、超级消息和云数据集成。

主要产品简介

Informatica Enterprise Data Integration包括Informatica PowerCenterInformatica PowerExchange 两大产品,凭借其高性能、可充分扩展的平台,可以解决几乎所有数据集成项目和企业集成方案。

Informatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可以按任意速度在企业内交付数据,具有高性能、高可扩展性、高可用性的特点。Informatica PowerCenter包括4个不同版本,即:标准版,实时版,高级版,云计算版。同时,它还提供了多个可选的组件,以扩展Informatica PowerCenter的核心数据集成功能,这些组件包括:数据清洗和匹配、数据屏蔽、数据验证、Teradata双负载、企业网格、元数据交换、下推优化(Pushdown Optimization)、团队开发和非结构化数据等。

Informatica PowerExchange 是一系列的数据访问产品,它确保 IT 机构能够根据需要随时随地访问并在整个企业内传递关键数据。凭该能力,IT机构可以优化有限的资源和数据的业务价值。Informatica PowerExchange支持多种不同的数据源和各类应用,包括企业应用程序、数据库和数据仓库、大型机、中型系统、消息传递系统和技术标准。

Informatica Data Quality通过一个全面、统一的平台,为所有项目和应用程序的相关人士、项目和数据域(无论在内部预置,还是在云中),提供普遍深入的数据质量控制。

Informatica Data Quality结合了强大的数据分析、清洗、匹配、报告、监控能力和易于使用的界面,使业务信息所有者能够在整个企业范围内实施和管理数据质量计划。

Informatica Data Quality Cloud Edition (云计算版)将普遍数据质量的功效和功能与最新云计算平台的灵活性、易用性和经济性相结合,向所有相关人士、项目和数据域交付数据质量。

Informatica Identity Resolution是一款功能强大且高度可扩展的身份识别解决方案,让企业和政府机构能够批量且实时地搜索和匹配来自超过60种语言的身份数据。

Informatica Data Explorer过强大的数据探查、数据映射能力和前所未有的易用性的完美组合,让您轻松发现、监控数据质量问题。

AddressDoctor为全球200多个国家和地区提供全球地址验证技术,其功能包括对多级地址(如街道级别)的支持,以及交付点验证和地理编码。

Informatica Cloud提供了面向数据集成云应用,确保企业用户能够跨基于云的应用程序和预置系统及数据库来集成数据。Informatica Cloud利用底层的PowerCenter数据集成引擎,包括在线注册、用户和任务流管理、工作调度和监控、错误处理、压缩、加密和安全代理功能,来访问和集成预置数据源和云数据。借助Informatica Cloud,客户与合作伙伴可以在云中构建、管理和共享定制的数据集成服务。

Informatica B2B Data Exchange是一款业界领先的工具,用于多企业的数据集成。它增加了安全通信、管理和监控功能,来处理来自内部和外部的数据。

Informatica B2B Data Exchange为多企业数据集成、合作伙伴管理以及业务事件监控提供了一个全面的技术基础设施。它能帮助企业有效且经济高效地与其贸易合作伙伴和客户所组成的外延网络进行协作,从而帮助企业降低成本,保持并增加收入。

Informatica B2B Data Transformation是一款高性能软件,可以将数据在结构化、非结构化格式与更常用的数据格式之间进行转换,来支持企业与企业(B2B)以及多企业的事务。这一统一的无代码环境支持几乎任意形式的数据转换,并且可供组织内多个业务级别的人员(分析师、开发人员和程序员等)进行访问。

Informatica Master Data Management通过提供整合且可靠的关键业务数据,帮助企业用户来改善业务运营。它能够以独特方式识别所有关键业务主数据以及它们之间的关系,通过多域主数据管理,使客户能够从小规模起步,随着需求的增长进行扩展,并且可在同一平台上支持所有的MDM要求——数据集成、探查、质量和主数据管理。

Informatica MDM业经证明和灵活的主数据模型、解决方案框架,以及统一的产品架构最大限度降低了前期采用和实施成本,使您可以随着时间的推移来管理和逐步扩展MDM计划。

Informatica Application ILM系列产品旨在帮助IT 部门管理数据生命周期中从开发、测试到存档、淘汰的各个阶段,同时保护数据的隐私。

Informatica Data Archive是一款高度可扩展的高性能软件,可以帮助IT部门经济高效地管理众多企业业务应用中数据的增长。该软件使IT团队可以轻松、安全地对应用程序数据进行归档,包括主数据、参考数据和事务数据,并可根据需要随时对其进行访问。

Informatica Data Masking是一款全面、灵活且可扩展的软件,用于管理对如信用卡信息、社会保险号、姓名、地址和电话号码等敏感数据的访问。该软件可以防止机密信息被无意中暴露,降低数据外泄的风险。

Informatica Data Subset是一款灵活的企业软件,可以自动完成将大型复杂 数据库创建为较小的目标数据库的任务。 通过完整引用的小型生产数据目标副本,IT机构可以大幅缩减支持测试环境所需的时间、工作量和磁盘空间。

Informatica Complex Event Processing使企业能够迅速地对数据驱动型事件进行探测、关联、分析和响应。凭借CEP与数据集成的结合,企业将具有更出色的响应性、适应性和灵活性。

Informatica RulePoint是一款CEP软件,可帮助各种规模的企业和政府机构获得运营智能——实时警报和深入了解相关信息,从而实现更智能、更快、更高效和更有竞争力地运营。

Informatica Ultra Messaging产品使用“无中介”(nothing in the middle)架构而设计,该架构消除了对后台程序或消息代理的需要。该设计实现了超低延迟信息和高效的系统,降低了硬件基础设施的成本,同时提高了吞吐量、弹性和可用性。

Informatica Ultra Messaging Streaming Edition是业界第一款采用“无中介”(nothing-in-the-middle)设计的消息系统。它是市场中领先的低延迟消息软件,也是一款高效、可配置、可靠且得到广泛部署的消息传送解决方案。

Informatica Ultra Messaging Persistence Edition通过创新的并行架构提供了高质量的消息送达方式,无需使用中央消息代理,消除了对存储-转发架构的需要,同时提供传统消息系统所无法企及的弹性和性能。

Informatica Ultra Messaging Queuing Edition扩展了Ultra Messaging的功能,包括了高效、低延迟、具有弹性的消息队列功能。对于希望实现“一次且仅有一次”的消息交付,低延迟负载平衡或智能索引队列的客户,Informatica Ultra Messaging Queuing Edition将是其首选的消息传送产品。

Informatica动态数据脱敏产品是一个为企业级客户设计的应用程序和数据库供应商混合解决方案。Informatica DDM可在短短五分钟内完成安装和配置,并与常用的企业业务应用程序天衣无缝地集成,其中包括 SiebelPeopleSoftSAPOracleApps ERP SuiteClarifyCognos及其他多种程序。

Informatica采用的数据脱敏方法基于终端用户的网络权限实时进行,与现有的ActiveDirectoryDAP IdentityAccess Management软件配合无间,确保每名用户的个人网络登录均会针对该用户有权访问的信息类型,触发响应的数据脱敏规则。这一验证流程能够随着终端用户数量的增长,轻松地扩展至额外的数据库中,所造成的延时仅为0.15毫秒,几乎不对网络资源产生任何可觉察的影响。

此外,Informatica DDM还具备针对终端用户等级的访问进行监控、登录、报告和创建审计跟踪的功能。该功能可简化遵守数据隐私法规和内部报告需求的流程,同时显著降低数据侵害风险。

12、Management/Monitoring

监控系统,服务器性能监控。

New RelicAppDynamics

New Relic是一款基于 SaaS 的云端应用监测与管理平台,可以监测和管理云端、网络端及移动端的应用,能让开发者以终端用户、服务器端或应用代码端的视角来监控自己的应用。

目前New Relic 提供的服务包括终端用户行为监控、应用监控、数据库监控、基础底层监控以及单个平台的监控,能为应用的健康提供实时的可预见性。例如,当出现大量用户无法登录帐号时,New Relic 提供的实时服务能让用户在投诉蜂拥而至之前找到问题的症结所在,进而让开发运营团队实时管理其应用的表现。

发展历程

New Relic总部位于美国旧金山,创建于20082月,目前拥有200名员工。它支持用 RubyPHPJava.NET 以及 Python 等语言写的应用。短短六年时间里,New Relic在创始人Lew Cirne的带领下得到了飞速发展。

2008年,New Relic获得首批投资者Benchmark Capital的投资。同年9月,New Relic更新了其Rails性能监测产品。RPM是一个Rails插件,它回调Rails以收集性能数据,然后将数据发送到New Relic服务器进行存储和评估。RPM的特色是提供了实时仪表盘(Real-Time Dashboard)以自动查看生成的报告并对向下钻取数据。New Relic还对其自身的产品进行监测——RPM产品的服务器端部分使用Rails编写并使用RPM监测。同年11月,Trinity Ventures进行跟投。

2009年,New Relic增加了产品对Java语言的支持,同年其活跃客户账户达10002010年,New Relic增加了产品对PHP.Net两种语言的支持,并仅在两年时间内就坐拥5000名活跃用户,Tenaya CapitalAllen & Co.担任公司顾问。2011年,New Relic免费开放实时用户检测服务,并增加了对Python语言的支持。同年11月,New Relic宣布运行Java应用的Heroku客户将可以使用他们的服务。这个产品与Heroku紧密整合,客户可以用其在Heroku控制台中看到New Relic的性能数据。该产品提供两个版本:专业版订阅服务与免费的标准版。除Heroku的插件外,New Relic还与其他多个平台有合作关系,包括亚马逊云服务、JoyentAcquiaCloudBeesRackspace以及Engine Yard。他们也提供独立版的产品,可以安装在一个数据中心,或是通过常规的托管提供商。

2012年,New Relic为所有用户免费提供服务器监测功能。同年10月,New Relic 推出了New Relic Connect,可以让用户跨应用、系统监控自己应用的表现,因为随着网络应用越来越呈现相互依赖性,一款应用的表现除了自身性能外,往往还取决于与其相关的应用及所在系统的表现,这样可以更全面掌握应用以及其所在生态系统里的表现。这一年里,New Relic已拥有2万个活跃用户账户。

20132月,New Relic获得由Insight Venture PartnersT. Rowe Price领投的8000万美元融资,公司整体估值高达7.5亿美元。同月,New Relic推出了iPhone版手机客户端,可以让用户在移动端随时监控。同年10月,New Relic加入了对Node.js的支持,改善了表现能力与通知系统。Node.js能够帮助用户查看代码级别的事务的追踪信息,并且使用户能够获取消耗在数据库访问上的所有时间。它还让用户能够识别出运行缓慢的第三方API这一年里,New Relic成为业界首个提供移动App监测服务和开源SaaS平台的公司,并拥有超过5万个活跃用户账户。公司CEO兼创始人Lewis Cirne表示,New Relic将考虑IPO,但具体日程未定。

盈利模式

作为一家SaaS服务提供商,New Relic盈利模式在于部署SaaS模式时向客户收取一定的服务费用,并根据提供的服务不同,提供 2套收费方案,分别针对端口和小微企业。其中,针对端口的收费方案提供3 种不同版本:Lite免费版、Pro (149 美元 / )和大型企业版(收费视企业情况而定);而针对小微企业的收费方案提供2种不同版本:10人以下初创公司版(199美元 / )20人以下小企业版(499美元 / )。尽管New Relic不向用户收取软件授权费用和硬件使用费用,但由于是按月收服务费,其累积效应不容小觑。

根据提供的数据,New Relic已经实现连续 18个季度增长,其营收在 2012 年增幅超过 200%。截至2012年底,New Relic 的活跃客户总计在 3.5 万左右,付费客户超过了 5000 家,其中有 1200 家是在 2012 年第4度新增的。2013年,New Relic预计营收1亿美元。

New Relic的客户有不少国际知名企业,比如ESPN 体育电视网、耐克和索尼。此外,康卡斯特、EradeeHarmonyGitHubGrouponZumba等公司也使用了New Relic的服务。

融资状况

New Relic已获得6轮风险/私募股权投资,共融资近1.75亿美元。20132月,New Relic获得8000万美元新一轮投资,估值达 7.5 亿美元。该轮投资由 Insight Venture Partners 领投,还包括来自T. Rowe Price Associates管理的多个帐户的重要投资。参与本轮融资的其他投资者还包括Dragoneer Investment Group LLCPassport Ventures LLC以及现有投资者Allen & CompanyBenchmark CapitalTrinity VenturesTenaya CapitalNew Relic预计将在2014年寻求上市。

竞争对手

在应用数据监控领域,New Relic已经是目前市场的领头羊,其最大的竞争对手为AppDynamics。在两年前这两家公司根本就不在考虑范围内,全是被IBMBMCCA科技这样的公司统治着。AppDynamicsNew Relic这两家公司的年营业额都达到了1亿美元,并且在进入价值180亿美元的IT运营大市场。这两家公司都为客户提供SaaS软件即服务的业务,IBM等公司专注在企业级软件,通常来说这些大公司的行动比较缓慢,而AppDynamicsNew Relic以行动快速为特点,并为习惯敏捷开发的新创公司服务。

2013年度两家公司的财务报告都非常优秀,AppDynamics第三季度的营业额增长了150%,其下半年的营业额的增速达到了160%New Relic的业绩也达到了类似的水平,2013年第三季度的营业额增长了100%

但是这两家公司之间还有一些区别,New Relic主要专注于SaaS服务,而AppDynamics还为大型企业级客户提供定制服务。New Relic的专注性让他们服务的适用性更强;AppDynamics20137月才推出了相似的SaaS服务。

从技术上说,这两家公司都采用了Node.js,这是一种现今流行的服务器端的编程语言,可以满足快速规模化的要求。

管理层

Lewis Cirne担任公司创始人兼CEO,他是美国性能监测领域的先驱者。Cirne1998年创办了Wily Technology公司,于2006年将Wily出售给了全球最大IT管理软件公司之一CA Technologies

2014年,Square首席财务官兼运营主管Friar将加入New Relic的董事会。Friar曾是Salesforce.com的财务和战略主管,在推动公司首次公开招股方面能力出众。

发展前景

正如Lewis Cirne所言,New Relic有意首次公开募股并在2014年进一步加强大数据业务的发展。作为应用监测与管理领域双巨头之一的New Relic,要想从和AppDynamics的战役中胜出,笔者认为,如何通过差异化服务抢占市场、保证服务的精准性与实时响应度、以及合适的性价比将至关重要。而决定上述三个要素的关键在于资本与大数据。早期,New RelicAppDynamics的市场定位仍略有不同,前者主要面向小型的创业型公司,而后者则面向企业。但目前这种格局已经被打破:New Relic进入了面向企业服务的领域,对大型企业提供监测管理服务定制;AppDynamics也伺机推出了类New RelicSaaS服务。两者在受众层面上已经达到了惊人的重叠。

此外,大数据挖掘对此类针对云端、网络端及移动端应用的监测管理服务供应商来说至关重要。如何从海量数据中挖掘出普适性的建议,帮助用户前瞻性地采取防范措施,将是这类公司区别同类公司的命门,毕竟对于一家公司来说,从战略层面上来看,未来的趋势比现在和过去的现实要重要得多。

New Relic或许可以在AppDynamics启动上市前尽早启动自己的IPO计划,在云计算和大数据概念受资本市场热捧,同时自身财务数据保持优异的前提下,通过资本市场募集足够的资金投入以大数据挖掘为重点的研发、销售和业务发展中,这将帮助New Relic在产品性能和服务质量上更胜一筹,从而获得用户和市场的亲睐,抢占市场占有率。

13、Security

隐私

Tanium

是由Orion Hindawi父子开创的初创企业,成立于2007年,负责为企业网络提供安全保护和系统管理,可为企业网络提供实时便捷的安全与系统管理。为企业网络提供安全保护和系统管理的初创企业Tanium Tanium是一家提供端点安全与企业网络系统管理的初创企业,成立于2007年,创始人是Orion Hindawi父子。 传统的系统管理或安全解决方案往往是多层方案,即从端点到管理中心往往需要经过中继/采集服务器,这样往往需要在端点设备处安装客户端软件,而且在终端数量庞大的情况下信息的收集往往需要数小时乃至数天,时效性不高,维护也不方便。传统的系统管理或安全解决方案往往是多层方案,即从端点到管理中心往往需要经过中继 / 采集服务器,这样往往需要在端点设备处安装客户端软件,而且在终端数量庞大的情况下信息的收集往往需要数小时乃至数天,时效性不高,维护也不方便。

Tanium 的解决方案是让客户机直接与服务器沟通。公司网站没有介绍具体的实现方案,但从下面这张图可以看出,其组网貌似利用了 P2P 技术,除了客户端与服务器的直接连接以外,客户端之间也有沟通。而用户则可通过浏览器管理网络上的设备并保证安全。根据网站介绍,利用 Tanium 的解决方案,网络管理员数秒内即可掌握数十万台设备的情况,并可在同样的时间内做出变更。所有网络节点均可查询、管理、更新、保护,而且在浏览器上近乎实时(15 秒左右)进行。数秒内管理和保护数十万台设备:企业安全与系统管理初创企业TaniumA16Z 9000万美元融资。

由于 Tanium 的解决方案具备了实时、便捷的特点,因此这套安全与系统监控兼顾的解决方案有可能对传统的企业软件提供商造成威胁,这以往是 IBMCA 赛门铁克等的领地,但是那些解决方案往往需要安装客户端,而且在时效性和便捷性方面并不具备优势。

Tanium 目前已经开始盈利。尽管 Hindawi 不肯透露公司的具体客户数,但他说一些大型信用卡公司、银行和美国政府机构都在使用该公司的产品。

Illumio

在过去数十年,数据中心已经历了很多次形态变化,最初,企业拥有设备并通过严密的物理控制和基于参数的访问实施保护。传统数据中心基于该背景,而企业安全策略也是建立在对设施的全盘拥有权的。通过在信任实体和非信任实体的边界部署网关应用实现”要塞防卫“式的安全。

这种方式在早期是适用的,但随着服务虚拟化、云计算及分布式、多形态应用的兴起,就需要一种全新的视角来审视设施和数据中心的关系。然而,安全模式依然僵化、专注在参数和静态、基于网络的策略,这就在动态数据中心需求和安全能力中造成了一个巨大的鸿沟。

当前企业安全需保护的应用都运行在数据中心和云平台中,根本性破坏了安全模式对静态网络安全参数和边界安全的依赖关系。因为网络中心式安全模式(Network-centric security model)已无法跟上应用发展和以动态数据中心为特征的设施进化。

安全准则已全部不同了,就需要重新思考安全架构和实施的方式。行业需要一种新的安全模式来弥补动态业务、IT环境和静态安全模式之间的鸿沟。

自适应安全会是云时代企业的最佳安全服务模式吗?而对于企业安全团队来说,也处在一个进退两难的困境,高曝光的数据泄露事故、内部威胁和人为错误使IT安全团队完全承担了企业声誉和知识产权的重任。同时,经常面临企业频繁业务变动、对快速发展期望、设施更换以及成本削减,都意味着安全团队正在竭力去迎合要求以避免自己成为业务发展瓶颈。

illumio认为要首先基于当前和未来的基础设施和企业业务动态发展的基础上,来设计新一代安全服务。其核心特征应该包括自适应、从内向外的全面防护、持续响应、高可视化等。作为产品背后的理念,illumio提出了面向动态数据中心和云平台的5大安全准则:

1)不能依赖基础设施

2)如果不能理解应用情景就不能有效的安全防护

3)安全策略自适应的调整可用自然语言来编写

4)安全可见性必须覆盖到防火墙之后

5)安全执行可实现自动化。

Illumio产品界面

从厂商可感知的服务价值上,illumio自适应平台有着出色的可视化和易用性,安全监控实施可精确至每个工作单元,并且适应无论私有服务器、混合云和公有云,任何规模和安全体系都可以灵活部署,常规安全管理和应急响应操作都有极高的自动水平,较为理想地解决了企业业务和安全的对立关系。

2014年,Garner遍访全球一线安全厂商,发布《面向高级攻击的自适应安全平台》报告,指明了云安全的发展方向,illumio作为国际上第一个将自适应安全平台产品化的厂商而备受关注。国内企业市场虽不及美国成熟,但市场潜力由于传统束缚较低会更优于国外,而且安全专业人员稀缺,在云计算技术革命和产业互联网化的创业浪潮推动下,中国互联网企业安全的潜在市场规模巨大。

14、Storage

存储

Microsoft Azure

Windows Azure是微软基于云计算的操作系统,现在更名为“Microsoft Azure”,和Azure Services Platform一样,是微软“软件和服务”技术的名称。Windows Azure的主要目标是为开发者提供一个平台,帮助开发可运行在云服务器、数据中心、WebPC上的应用程序。云计算的开发者能使用微软全球数据中心的储存、计算能力和网络基础服务。Azure服务平台包括了以下主要组件:Windows AzureMicrosoft SQL数据库服务,Microsoft .Net服务;用于分享、储存和同步文件的Live服务;针对商业的Microsoft SharePointMicrosoft Dynamics CRM服务。

Azure是一种灵活和支持互操作的平台,它可以被用来创建云中运行的应用或者通过基于云的特性来加强现有应用。它开放式的架构给开发者提供了Web应用、互联设备的应用、个人电脑、服务器、或者提供最优在线复杂解决方案的选择。Windows Azure以云技术为核心,提供了软件+服务的计算方法。 它是Azure服务平台的基础。Azure能够将处于云端的开发者个人能力,同微软全球数据中心网络托管的服务,比如存储、计算和网络基础设施服务,紧密结合起来。

微软会保证Azure服务平台自始至终的开放性和互操作性。我们确信企业的经营模式和用户从Web获取信息的体验将会因此改变。最重要的是,这些技术将使我们的用户有能力决定,是将应用程序部署在以云计算为基础的互联网服务上,还是将其部署在客户端,或者根据实际需要将二者结合起来。益处

Azure服务平台的设计目标是用来帮开发者更容易地创建web和互联设备的应用程序。它提供了最大限度的灵活性、选择和使用现有技术连接用户和客户的控制。

利于开发者过渡到云计算。世界上数以百万计的开发者使用.NET FrameworkVisual Studio开发环境。利用Visual Studio相同的环境创建可以编写、测试和部署的云计算应用。

快速获得结果。应用程序可以通过点击一个按钮就部署到Azure服务平台,变更相当简单,不需要停工修正,是个试验新想法的理想平台。

想象并创建新的用户体验。Azure服务平台可以让你创建Web、手机、使用云计算的复杂应用。与 Live Services连接可以访问4亿Live用户,新的使用新方式与用户交流的机会。

基于标准的兼容性。为了可以和第三方服务交互,服务平台支持工业标准协议,包括HTTPRESTSOAP RSS AtomPub.你可以方便地集成基于多种技术或者多平台的应用。

优势

数据和服务的安全性。保护客户数据,服务隐私和信息安全是我们的头等大事。我们将使用在服务企业客户,提供在线服务方面的数十年的经验应用于 Windows Azure 平台。数据完全由客户自主控制。中国地区 WindowsAzure 服务存储的所有数据都将被加密,并且只有客户才有密钥。

开源软件支持。Windows Azure 支持大量开源应用程序、框架和语言,并且数量仍在不断增加,这要归功于微软与开源社区的协作。我们清楚开发人员希望使用最适合自身经验、技能和应用程序需求的工具,而我们的目标就是让开发人员能够随意选择自己需要的工具。

融合本地 IT 设施和公有云。Windows Azure 是最适合混合 IT 环境的公有云平台。它为企业提供了从本地到云端的整合式体验,覆盖包括存储、管理、虚拟化、身份识别、开发在内的方方面面,帮助您轻松将公有云融入自己的 IT 资产组合。

网络访问性能保证。Windows Azure 在中国运行于北部和东部两个主要城市的数据中心,将帮助客户解决异地灾备问题。数据中心将有多家主流运营商接入,以此提高网络服务性能。

15、APP Dev

移动应用程序开发

Apigee

主要为公司和个人提供数字业务的API高速接入服务,如:GOGOwifi能够在2万英尺的飞机上为顾客提供网络服务,就是使用了Apigee的服务。简而言之,Apigee为传统公司提供数字化服务,使其能够迅速实现从线下到线上,从传统到数字化的转变,实现业务的扩展并迅速扩大。智能手机、平板以及移动应用程序(app)不但已经深入到人们生活的各个角落而且也深刻的改变和影响着公司的业务模式,在全球化竞争的今天,企业必须迅速实现从传统到数字化的转变,以便赢得先机。Apigee(APIC)就是这样一家公司,为企业提供O2O的全部解决方案。

ApiGee(APIC)为众多世界知名跨国公司提供数据接入服务,福布斯世界100强企业中,20%的都是APIC的客户,福布斯50强公司中更有超过25%的都使用APIgee的服务,如eBay, Shell, First Data, Walgreens, Burberry, Live Nation, Bugaboo, etc.

Apigee业务范围

API平台服务, API管理, API分析, 开发者工具, 手机应用分析, API交互, 手机APP, 手机后台, 大数据, 数据预测及分析等。使TwitterFoursquareLinkedIn和思科这样面对客户的开发者能够建立和配置极具规模的基于云的应用和多核硬件系统。

十六、Crowdsourcing

众包是指,从一广泛群体,特别是在线社区,获取所需想法,服务或内容贡献的实践。它与外包Outsourcing)的区别是,它将任务分解和分配于一个公众的、未加定义的群体而非某一特定群体。众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。众包的任务通常是由个人来承担,但如果涉及到需要多人协作完成的任务,也有可能以依靠开源的个体生产的形式出现。

众包不仅是对外包的升级,更是一种颠覆,其颠覆意义表现在:

1、众包不是外包。人们认为这是外包,但这肯定是一种误解,宝洁公司负责科技创新的副总裁Larry Huston评价道,外包是指我们雇用人员提供服务,劳资双方的关系到此为止,其实和雇佣关系没什么两样。但是现在我们的做法是从外部吸引人才的参与,使他们参与到这广阔的创新与合作过程。这是两种完全不同的概念

2、众包的核心其实还包含着与用户共创价值的理念。

3、在众包中,个体的创新成为主流。外包强调的是高度专业化,而众包则反其道而行之,跨专业的创新往往蕴含着巨大的潜力,由个体用户积极参与而获得成功的商业案例不胜枚举。

4、最关键的是,随着草根力量的崛起,把草根力量转换为商业力量已有章可循。

事实上,众包的应用早就在进行。不妨看看那些拥抱众包革命的公司:

宝洁是最早成功使用众包的公司之一,借助创新中心等网络平台的帮助,该公司的研发能力在过去六年里提高了60%

eBay的核心战略甚至就是众包,从早期的几小类产品,到如今几十万种庞大的产品,eBay的战略依赖微小的个体而完善。

Mechanical Turk

亚马逊推出了提供众包服务的平台Mechanical TurkBeta版),企业用户针对的是那些需要以数美分起价做为费用完成简单计算任务的公司,而个人用户将通过完成某项工作获得小额的报酬。

本文来源:https://www.2haoxitong.net/k/doc/2c088efb192e45361166f50c.html

《全球大数据企业与技术全景图(上)infrastructure基础设施.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式