您好, 访客   登录/注册

应对大数据时代

来源:用户上传      作者: 本刊编辑部

  2012年IBM调研了全球1700多个CEO,涵盖了18个行业,将近70个国家,这些CEO认为未来3~5年能够影响到企业机构最重要的外部因素是科技。
  另外一个结论是全球的CEO普遍认为大数据和海量信息正在影响企业的战略和业务决策,他们更多地寄希望于互联网、大数据,以及创新技术,希望充分挖掘这方面的潜力。
  但有意思的是我们今天很多传统的技术方法、产品能够很好地来挖掘、获取传统的数据,但针对不断增长的大数据,包括非结构化的数据,我们有什么样的技术手段去挖掘这些大数据的价值呢?这是一个大家都会去思考的问题。
  大数据的4个V
  首先我们针对这些“大数据”的特点做以下归纳:
  第一个V(Volume)是数量非常大,今天的数据有90%是在过去两年中产生的,而在未来的8年中间,我们预测数据将达到35ZB,今天我们还没有任何一台机器能够存储1ZB的信息。
  第二个V(Velocity)是速度,不光是数据产生的速度大,还包括它需要被集成、处理以及分析的速度,也要相对应地提高。我们想象一下当数据像流水一样滚滚而来,它需要实时、半实时处理,需要接近于零延时地处理,我们怎样在这个过程中获取这样的信息,这些对我们今天的计算模式、软硬件都提出了更高地要求。
  第三个V(Variety)是多样性,今天的数据来源是多样性的,有自然语言的来源,有多媒体的数据,这样多元性的数据源决定了数据种类也是多样性的。我们有传统的关系型数据、结构化的数据、非结构化的数据等。今天面临的挑战更多是解决非结构化数据,挖掘这些信息的价值。
  第四个V(Veracity)是真实或准确性,怎样能够保证我在微博上发了一个微博,我想明天买一个iPad,这个信息准确吗?如果说我发的IP地址不是来自于成都,而是来自于北京,是不是能够意味着我在成都将会有一个潜在的iPad客户呢?这里面有很多的不确定性,今天大数据的产品技术和能力,是否能够帮助我们的企业发现这样的不确定性呢?这同样也是一个需要解决的、关键的问题。
  IBM的大数据战略
  下面我想给大家简单地介绍一下IBM的大数据平台,这个平台中间有三个主要的部分,第一部分是Hadoop系统,它实现了海量数据的分布式系统架构,利用集群的能力去做高速的运算以及廉价的存储。
  第二部分是流计算,IBM有一个自主研发的流产品,是专门用来帮助企业实时分析各种各样的数据流。流计算这个产品今天已经被广泛地应用到很多的企业中间,例如:政府反恐监控、电信行业、公共能源事业等等的客户,而且有更多的企业级客户,正在探索如何把流计算产品和技术能力带到企业中间去,对数据进行更加实时地分析以及获取洞察。
  第三部分是数据仓库,我们认为大数据平台,不是对过去传统技术的推翻、颠覆,而是对过去传统技术的扩展和延伸。
  我们认为对于不同的数据,应该有最适合它的技术去处理,比如说传统关系型的数据,就应该是由数据仓库去处理,对于流数据,就有可能是由流来处理,对于静态的海量的数据、非结构化的数据,可能就是Hadoop来处理。
  另外我想再谈一下信息集成和治理,比如说我要把数据仓库的数据放到Hadoop系统里面的时候,我希望能够有一个集成的系统统一来做这件事情,对于我们解决刚才提到的第四个V(不确定性)有着关键的作用,比如如何通过集成和治理的能力,把大量的数据中间的不确定性,提供出可以信赖的数据,然后去告诉企业级用户和决策者们,这些大量的数据里面,到底有多高的信任度。
  最后我想强调一下,大数据平台不是一个单一的技术,也不是一个单一的产品,它是多种能力的综合,在大数据平台中间,我们要强调的是这个平台是用来帮助企业级客户去深度分析、深度挖掘,去获取洞察和价值的平台。而如果企业不能够从大数据中间获取支撑他决策的分析能力和洞察的话,大数据就是一堆垃圾,更不要谈什么掘金了。
转载注明来源:https://www.xzbu.com/8/view-3951957.htm