您好, 访客   登录/注册

大数据:科学研究第四范式演化中的新热点

来源:用户上传      作者: 张慧蕊

  关键词:大数据;科学研究;挑战;趋势
  摘要:文章对有关大数据方面的研究做简要综述,对大数据的理论研究、大数据的应用研究、大数据时代面临的挑战和发展趋势这4个方面进行简要分析。
  中图分类号:G250文献标识码:A文章编号:1003-1588(2015)05-0095-03
  近年来,高度连接的世界和迅速扩张的社交媒体使得数据产生的范围、方式、途径发生了翻天覆地的变化,其组成结构、类型格式、存在形态等都愈加复杂,全球进入到一个以数据驱动社会创新、经济增长的大数据时代。大数据时代,人类在实践中逐渐意识到数据的重要性,并通过对数据的进一步采集、存储、整合、分析、利用发现新的知识、创造新的价值,为社会带来全新的发展机遇。目前,大数据作为一项新兴的信息技术,受到了大型企业、信息服务机构乃至政府的高度重视,其带来了一场知识革命,庞大的数据量将对各个领域产生巨大影响。因此,大数据成为一个至关重要的课题,吸引了大量学者对其进行深入研究,笔者在查阅国内外相关文献的基础上,对大数据的理论研究、大数据的应用研究、大数据时代面临的挑战进行了综合分析,以期展望未来大数据的发展趋势。
  1大数据的理论研究
  由于“大数据”一词是近几年才提出的,因此理论研究是学术界研究的热点,其包括大数据的内涵、技术等方面。
  1.1大数据的内涵
  1.1.1定义。大数据作为新出现的名词,尚未有一个标准的定义,人们对大数据的理解也各不相同。全球知名咨询机构麦肯锡公司在其发布的研究报告中对大数据作了如下定义:其大小超越了典型数据库软件的采集、存储、管理以及分析等能力的数据集。李国杰院士及程学旗教授认为,大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合[1]。学者韩翠峰则认为,大数据是存储在数据库中的结构化数据以及由图片、音视频、电子邮件、社交网络等产生的半结构化数据与非结构化数据的总和[2]。笔者通过对比分析发现,大数据并非单纯指数据量的大小,而是指在体量浩大、模态繁多的数据中能快速获取有价值的信息。
  1.1.2特点。大数据是指无法用现有的软件工具提取、存储、搜索、共享、分析、处理的海量且复杂的数据集合。业界通常用“4V”来描述其特征:①数据体量巨大(Volume)。随着科学技术的进步与发展,数据集合的规模不断扩大,已由TB级升至PB级。②数据种类繁多(Variety)。目前,数据类型愈发多样,非结构化数据越来越多,如微博微信、图片视频、地理位置信息等,这对数据处理能力提出了更高要求。③处理速度快(Velocity)。随着移动网络的发展,人们对数据的实时应用需求变得更为普遍,因为一些数据具有很强的时效性,所以需要快速处理,这是其区别于传统数据挖掘的最显著特征。④价值密度低(Value)。数据的价值巨大,但囿于传统的思维方式与技术方法,其价值密度却与数据总量成反比。NetApp指出,大数据主要包括3大要素:大分析,通过对巨大数据集合的实时分析,帮助用户获取新的价值;高带宽,达到更快的数据处理速度;多内容,能轻松实现数据的恢复、备份、复制与管理,在不丢失任何信息的情况下实现高扩展性[3]。Wakefield Research在2012年的大数据研究中揭示了大数据的3个特点和现状。首先,大数据已经到达了一个临界点,数据已变得普遍,现在其已是大家的事务。其次,大数据在开创领导者工作议程的价值上已经达到了一个顶点。最后,关键业务功能不充分地支持数据为它许诺的价值,挣扎于庞大的体积和安全问题中,公司开始重新考虑他们的数据战略。
  1.2大数据的技术
  大数据技术是近年来备受关注的一个热点,是指从各种各样类型的数据中,快速获得有价值信息的能力。随着互联网的迅猛发展,数据量的增长速度越来越快,传统技术已无法满足人们对大数据的处理需要,很多研究者开始关注与大数据分析相关的技术。
  1.2.1云计算。中国人民大学孟小峰教授认为,大数据的关键技术主要涉及云计算和大数据分析工具[4]。云计算是大数据的基础平台,正是有了云计算技术在数据存储、数据管理以及数据分析等方面的支撑,大数据才得以广泛应用。云计算技术中主要涉及文件系统、数据库系统、检索与查询技术、数据分析技术等。
  1.2.2大数据分析工具。目前被广泛关注和应用的分布式系统基础架构Hadoop已经发展成为包括文件系统(HDFS)、数据库(HBase、Cassandra)、数据处理(MapReuce)等功能模块在内的完整生态系统(Ecosystem)。其可以高速捕捉、发现并分析数量大、结构复杂的数据,为用户决策与创新提供丰富的知识和有效的答案。
  1.2.3并行数据库。并行数据库技术起源于20世纪80年代后期,研究的重点是并行数据库的物理组织、操作算法、优化调度策略。当前主流的并行数据库都支持标准SQL,并且实现了数据库界过去30年提出的许多先进技术。其主要采用shared-nothing结构,将关系表在节点间横向划分,并利用优化器对执行过程进行调度和管理,目标是通过多个处理节点并行来执行数据库任务,提高整个数据库系统的性能和可用性。
  1.2.4MapReduce。MapReduce是一种用于大规模数据集的并行运算的编程模型,其主要思想源于函数式编程语言以及矢量编程语言。MapReduce起初主要用来处理互联网数据,但其简单而强大的数据处理接口和对大规模并行执行、容错及负载均衡等实现细节的隐藏,使其迅速在机器学习、数据挖掘、数据分析等领域被广泛应用。MapReduce将数据处理任务抽象为一系列的Map(映射)―Reduce(归约)操作,Map主要完成数据的过滤操作,Reduce主要完成数据的聚集操作。其输入、输出数据均以〈key, value〉格式存储,用户在使用该编程模型时只需按照自己熟悉的语言实现Map函数和Reduce函数即可,MapReduce框架会自动对任务进行划分以做到并行执行[5]。   2大数据的应用研究
  研究者除了对大数据进行基础的理论研究外,也开始倾向于应用方面的研究,如公共事业、物流零售、文化娱乐、能源制造、金融保险、IT互联网等众多领域。
  2.1自然科学
  因专业需要,自然科学界很早就进入了大数据研究时代,科学研究已经被大数据彻底改变。如:在天文领域,The Sloan Digital Sky Survey已经变成如今全球天文学家的信息来源中心;在生物科学领域,借助对大数据的研究,已有了建立公共数据库行之有效的方法;在医学领域,对信息技术的利用在减少医疗费用的同时也提高了治疗的质量,实现了事先预防。
  2.2社会科学
  大数据应用于社会科学基本是在研究工具引入计算机以后才开展的,其中尤为突出的是商业方面和社会管理方面。
  2.2.1商业方面。由于手机、电脑等通信工具的普及,海量的数据开始能够被发现并收集起来。通过数据的挖掘、处理、整合,可以将存储在不同系统中看起来毫不相关的数据联系到一起,从中找出相关关系,并获得一幅关于企业运营的完整图景。此外,运用大数据技术可以推动企业的业务升级转型,如金融类和零售类的企业以往在评估用户信用等级和店铺仓储方面需要耗费大量的人力、物力,而运用大数据分析技术之后,能及时处理相关信息,提高运营效率,总结发展过程中的模式,并改善预测未来的能力[6]。
  2.2.2社会管理方面。世界各国政府在国家管理方面已经引入了各种数据分析,以期从繁杂的社会现象中总结出科学的政策来指引民众,保证社会的稳定有序发展。如美国政府将犯罪率加以统计,以期预测未来可能发生的犯罪行为,从而预防犯罪事件的发生。
  3大数据时代的挑战和趋势
  3.1大数据时代面临的挑战
  3.1.1大数据需求不够清晰。很多业务部门不够了解大数据及其应用价值,很难提出精准的大数据需求,阻碍了企业对大数据的利用。同时,很多有价值的历史数据由于没有应用场景而被删除,导致了数据资产流失。因此,大数据从业者应该与专家共同探讨,分享大数据应用场景,从而使更多的业务人员真正了解大数据的价值。
  3.1.2数据孤岛现象严重。由于数据常常散落在不同的业务部门,并存储在不同的数据仓库中,同时不同业务部门的数据技术也不尽相同,这就导致数据在企业内部无法有效关联与整合,进而影响数据价值的挖掘。因此,如何将不同部门的数据联通,并实现技术与工具的共享,值得我们深入思考。
  3.1.3数据可用性低。很多企业不够重视大数据的预处理工作,导致收集到的庞大规模的数据不规范、不准确、质量差,不便于挖掘有价值的信息。因此,如何利用大数据的去冗降噪技术,提高数据的可用性和准确性,一直是学界争论的话题。
  3.1.4技术架构。数据量的急剧增长超越了系统的数据处理能力,如何构建分布式的数据仓库且可方便扩展成为挑战。海量数据需要强大的数据中心作为支撑,如何在保证数据稳定、支持高并发的同时,减少服务器的低负载,也将成为挑战。
  3.1.5数据安全。在数据收集的过程中,暂时还没有一个比较系统有效的措施来保证信息不外泄,即使有较为完备的方案,也存在着高成本与极大的复杂性,甚至会产生新的漏洞。这些情况成为现阶段难以逾越的鸿沟,如何保证用户的信息安全成为大数据时代非常重要的课题。
  3.1.6人才缺乏。大数据开发建设的各个环节都离不开专业人才,据Gartner预测,到2015年,全球将新增440万个与大数据相关的工作岗位,且需要的是能够综合掌握数学、统计学、数据分析、机器学习、自然语言处理等的复合型人才。因此,高校应与企业合作,共同培养并造就一支熟悉大数据技术、有大数据应用经验的专业队伍,以保证大数据市场的长远发展。
  3.1.7数据开放。各系统建设缺少统一规划、统一标准,因而形成了很多“信息孤岛”,致使数据开放程度较低,阻碍了数据的有效利用。同时,由于我国缺少有关大数据方面的立法,导致无法既保证数据共享又防止数据滥用。另外,如何在推动数据全面开放、应用、共享的同时有效保护用户隐私,也将是大数据时代的一个重大挑战。
  3.2大数据研究的发展趋势
  3.2.1逐渐成为重要的战略资源。已有越来越多的国家宣布架构大数据的传播机制并进一步扩大规模,力图在大数据时代的信息竞争环境下处于主导地位,相信未来大数据将成为提升机构和企业竞争力的强大武器。
  3.2.2在更多领域发挥作用。目前,大数据在互联网、金融等领域已取得较好的应用效果,未来相信大数据将会在更多领域得到应用,以帮助企业更好地满足用户的现实需求和潜在需求,并带来广泛的社会价值。
  3.2.3大数据的价值要在开放的基础上才能得以实现,尤其在公共事业方面。我国一些城市和部门正在逐渐开展数据开放工作;另外,对于不同行业,数据共享也是体现数据价值的重要途径,未来相信数据共享会成为一种趋势,并将出现不同领域的数据联盟。
  3.2.4安全隐私问题将成为研究重点。在发展大数据分析的同时,对其涉及的安全隐私问题,各个研究机构已经开始有所作为。在设计LDCC(洛桑数据收集活动)时,NOKIA公司在与志愿者相关数据、匿名化及研究人员承诺方面做了一定的探索。
  3.2.5创造新的就业岗位。大数据的出现与应用将创造一批新的就业岗位,如数据分析师、数据管理专家、数据产品经理等。由于强烈的市场需求,未来高校将逐步开设大数据相关专业,同时与企业紧密合作,以培养专业人才。
  大数据时代的到来以及大量相关技术的广泛应用极大地影响了承载着知识存储、组织、开发与传播重任的图书馆的命运,如何避免被边缘化,将自身从传统意义上的静态收集转为动态分析并进行有效检索成为图书馆从业人员当下要解决的重要课题。
  参考文献:
  [1][ZK(#]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊,2012(27):648-654.
  [2]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(5):38.
  [3]NetApp. Big Data Solutions for Government[EB/OL].[2014-08-10].http://www.netapp.com/us/solutions/in-dustry/government/bigdata.aspx.
  [4]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(50):152-159.
  [5]王珊等.架构大数据:挑战、现状与展望[J].计算机学报,2011(10):1744-1750.
  [6]徐子沛.大数据――正在到来的数据革命,以及它如何改变政府、商业与我们的生活[M].广西:广西师范大学出版社,2012.
  (编校:严真)
转载注明来源:https://www.xzbu.com/4/view-7033305.htm