您好, 访客   登录/注册

大数据时代的数据挖掘技术与应用

来源:用户上传      作者:

  摘 要
  随着科技的进一步发展,已经带动着各大领域的创新和发展。而我国在近年来,城市信息化的普及也在不断推进,网络技术的改革和发展也显得格外重要。而特别很多企业对于自身的信息和数据储存、共享以及处理都格外注重,要求技术本身要包含安全性、便捷性以及可靠性。,而是在大数据提出后,数据挖掘技术已经成为了一种新的主流技术,而研究数据挖掘技术的理念、方法以及应用领域,将对我国工程施工领域的未来带来更多的机遇和挑战。
  【关键词】大数据时代 数据挖掘技术 分析和研究运用
  数据挖掘技术,也被称为数字处理技术,顾名思义,就是对于目前各大企业的内部数据,进行整理、调整、挖掘实施以及评估等一系列处理操作,其主要的目标是保证全局数据都能够得到充分的优化。而大数据则是区分于以往抽样调查的方法,而是对于全局数据进行分析,从而保证分析的全面以及完成。而大数据技术也包含4个优点,即高数量、高速度、多元化以及高价值。而笔者将通过本文,就大数据时代的数据挖掘技术与应用进行分析和探讨。
  1 相关概念的简介
  1.1 大数据的概念
  关于大数据的理念提出,可以追溯到麦肯锡研究院于2011年发布的《大数据:创新、竞争和生产力的下一个新领域》,其中阐述的观念就涵盖数据方面,即数据已经融入到了人们的日常生活中,也是生产运作的一个重要因素。而大数据的运用,对于消费以及生产水平都是一种有效的提升提升,根据美国曾经发布的《大数据研究和发展倡议》资料,截至2011年一年,全球总的数据就增加了1.8ZB,而进行人均计算,相当于每个人都具有至少200GB的数据资源,而且这一数据还在呈现出日益增长的趋势,根据统计计算,这一数值将会按照约为50%/年的速度增长。
  1.2 数据挖掘
  作为一个新型学科,数据挖掘技术源于20世纪的80年代,那时其效用与目前存在本质差异,科学家最初研究大数据,主要是用于一些人工智能技术的开发。简而言之,技术层面上,数据挖掘就是一个对数据进行发掘创新的过程,即要求目标数据具有隐蔽性、挖掘价值以及挖掘潜力,而且需要操作者在一堆冗杂的、随机的、模糊的数据库中进行挖掘;而对于商业层面上来说,数据挖掘就是在一些大量的数据信息中获得规律以及价值信息,从而为决策提供重要的知识凭据 。
  2 数据挖掘的研究手段
  对于数据挖掘而言,不同的研究手段将是其开展的重要基础,而研究手段的决定,主要需要依靠科学的计算为依据,分析和对比数据中存在的一些不为人知的规则,然后通过研究手段的改变去应付不同的问题,对于实际操作来说,就是针对不同的数据找出不同的解决方法,而常见数据挖掘的研究手段主要可以分为四类,即聚类研究、分类和预测以及关联研究。
  2.1 聚类研究
  将抽选的数据或者对象的库进行类似“分类”的聚类划分,然后再将其中的相同或者相近的数据划分为一个组类,由此建立起多个组类开展研究的过程。整个过程突出的是一种无知识基础、无监督管控的学习过程。而整个过程由于分类研究有本质的差异,因为聚类研究在事先根本无法得到目标的重要属性数据,而这种分析方法主要可以用于多个区域,例如心理、统计、医药、销售以及数据识别等,而根据其隶属度的取值,有能将其分为两种研究方法,即硬聚类与模糊聚类,对于前者来说,就是将目标按照影响标准进行划分,即目标如果属于某类,必定不属于其他类;而对于后者来说,主要取决与隶属度的取值不同。而划分过程可能会将目标划分入多个聚类中。此外聚类的计算方法也能分为多种,即包含密度算法、层次算法、划分算法、网格算法以及模型算法等等。
  2.2 分类与估测
  对于分类与数值估测来说,都是属于是问题预测方式,其中前者要求估测各个类中的标号,这些标号都是分散且无规律的,而估测方法可以采用函数模型,要求模型类型为连续值函数。分类估测作为数据挖掘的起始工作,主要需要反应已经获知的训练数据库的特点,从而根据以上基础完成其中对每一类的情况以及特点完成相应的分类操作,而整个操作也是受到督促的,对于一般的分类算法可以有决策树、粗糙集、贝叶斯、遗传等算法,而估测主要是基于分类以及回归基础,估测数据将来的动向,即包含局势外推、时间序列以及回归分析几类。
  2.3 关联研究
  关联研究是源于自然生物间微妙的关系,而某事情的发生和发展也会引发连锁的事情发展,也就类似所谓“蝴蝶效应”的定义。而关联研究的研究目标即是研究物与物之间的微妙关系,包含一些依赖关系等等,从而找出其中的规则,基于规则,分析将来的动向。以购物为例,分析购物者的心理规律以及习惯,可以从他们对于购物的一系列表现,例如购物篮的物品类型、放置规律、购物消费理念、购物环境需求等等,而掌握这些规律,足以让一个销售企业获得巨大的消费市场以及商机。
  3 大数据时代的数据挖掘的运用
  3.1 数据准备
  准备流程需要依附于研究者已经建立起长期且丰富数据资源的数据库,而根据这些无规则的原始数据进行相应的挖掘前的准备的工作,例如数据的处理、择取、清除、推敲以及转变,作为基础的流程,数据准备操作在整个流程中起到重要的基础作用。
  3.2 数据挖掘
  开展数据挖掘操作,需要根据挖掘对象的情况择选最优的计算方法,从而获取其中的规律性,例如对应采用决策树算法、分类算法、神经网络算法以及Apriori算法等。
  3.3 数据挖掘的模式评估研究
  模式评估的对象主要是通过数据挖掘处理过程数据,而评估流程是了解、研究且取得其中数据的规则,然后对数据进行转变“翻译”成通俗易懂的语言,供人们去研究和思考。
  3.4 数据挖掘的知识应用
  知识应用是数据挖掘的最后一步,通常知识运用就是一种现实运用的过程,通过数据准备、挖掘、研究评估,最后将结果数据或者规律用于现实中,从而体现数据的本身的价值,这就是知识应用的内涵。   4 大数据时代的数据挖掘的运用
  4.1 市场营销方面
  市场营销行业已经是目前数据挖掘采用最多的行业,数据挖掘的作用主要体现在的对于消费者群体的消费习惯以及行为进行解析,从而改变销售方法,提升产品的销售量,此外,除了一些购物消费以外,数据挖掘技术以及拓展到了各大金融行业,例如保险行业、银行行业以及电子商务行业等等。例如:在市场营销方面,采用数据挖掘中的聚类研究,即客户一系列无规则、无意识的行为数据,对他们进行识别,即根据客户的忠诚度、消费意识进行分类,帮助企业寻找其中的潜在客户以及固定客户群。
  4.2 数据挖掘的科学分析
  科学本身就是一个寻找规律、发现规律以及利用规律的过程,而且任何科学研究都是需要基于数据作为基础,所以数据挖掘对于科学领域也具有重要的意义和价值,特别是针对一些未知的事物、领域或者知识,通过数据挖掘可以有效展示数据规则。例如对于太空行星的分析,遗传基因DNA的数据以及遗传规律等。
  4.3 制造业
  与其他行业不同,制造业运用数据挖掘的目的主要是产品质量检查方面,例如研究产品的数据,找出其中规则。分析整体生产流程,解析其中过程,找出影响生产质量以及效率的问题,然后通过对这些问题进行解决,提升企业经济效益。对于制造业而言,数据挖掘运用主要体现在决策方面,即首先通过数据筛选,获取有用的知识和数据,然后采用决策树算法,统计决策,然后选择其中正确的决策,即像根据目前产品的流行情况,预测目前生产产品的受欢迎度,然后决策生产的时间以及周期。
  4.4 教育方面
  对于教育行业来说,最重要的除了教师的教学方法以外,学生的学习情况、心理动向以及教学评估都是十分重要的,采用数据挖掘技术,则可以有效将这些数据通过分类、筛选以及处理,得出有效的数据规则,供学校教学改革时进行参考。例如:教学质量评估数据挖掘模块的开发,即将教学质量相关的项目通过QSL Sevrer进行整合和存储,例如教学准备、教学内容、教学方式以及教学态度等,最后学生可以进行自行浏览并且完成评估,而评估结果则会上传系统进行最后通过数据挖掘,筛选其中有用的信息,再通过Apr1ori算法挖掘其中关联规律。
  5 结语
  虽然数据挖掘技术不是一项新兴的技术,但是其还具有较大的研究价值与运用前景,特别是在特殊领域的运用,对于一系列数据进行科学冗杂的处理,然后分析其中规则价值,可以有效提升各大行业的经济效益。
  参考文献
  [1]赵倩倩,程国建,冀乾宇,戎腾学.大数据崛起与数据挖掘刍议[J].电脑知识与技术,2014,11(33):7831-7833.
  [2]韩英.浅析大数据时代的数据挖掘与精细管理[J].成都航空职业技术学院学报,2013,12(04):63-71.
  [3]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014,05(05):45-47.
  作者单位
  重庆燃气集团股份有限公司 重庆市 400020
转载注明来源:https://www.xzbu.com/1/view-11616964.htm