您好, 访客   登录/注册

大数据挖掘与数据处理方法探析

来源:用户上传      作者:黄伟

  摘要:该文将基于大数据挖掘技术的基本,分析大数据与大数据挖掘之间的相互联系,对当今主流数据挖掘算法进行分类说明,最后以大数据时代中主流数据形态——非结构数据为例,阐述大数据挖掘的数据处理方法,以期能够为业内人士提供理论参考。
  关键词:大数据;数据挖掘;数据处理方法
  中图分类号:TP3      文献标识码:A
  文章编号:1009-3044(2021)08-0023-02
  随着信息技术的不断发展和普及,如今人们日常活动过程中所产生的数据信息也越来越庞大,该如何在庞大的数据信息中挖掘出可以促进科学技术及社会发展的有用信息,其将是大数据时代中需要解决的重要难题。大数据挖掘技术的出现促使人们可以在海量的数据信息中挖掘出有用的知识和信息、总结出相关规律,进而促使原本“无用”的数据信息发挥出更大的利益价值。
  1 大数据挖掘的基本概念
  所谓数据挖掘,就是指在大量的、不完善的、没有规律的数据信息中,挖掘出可以对当今科学技术以及社会发展有价值的知识和规律。现如今,数据挖掘多是采用相应的分析工具,在海量的数据中发现数据与分析模型之间的关系,此过程中会经过数据清洗与集成、数据转换、数据分析、模型评估、知识表示等一系列过程,最终为数据挖掘工具使用者提供有价值的数据信息[1]。为能够有效发挥数据挖掘效果,数据挖掘分析工具中不仅融入了数据库、模式识别、数据建模、数理统计等一系列信息分析处理技术,还集成了人工智能等高新科学技术,促使分析工具可以不断进行完善升级,进而更快、更有效地获取数据挖掘结果。其中数据库、数理统计以及人工智能三种技术是数据挖掘的核心技术组成。
  大数据是指常规软件工具无法实现短时间内抓取、管理的数据集成,此类数据具有海量性、高速性、多样性、真实性以及价值性等特点。随着信息技术的不断发展和普及,如今人们日常活动中所产生的数据信息也越来越多,这些信息中虽然包含着诸多有价值的数据信息,但由于数据体量过大,难以实现有效抓取,使得相关数据信息难以得到有效利用。为能够解决这一问题,众多科研人员以数据挖掘技术为基础,结合大数据的实际特点开发出了大数据挖掘技术,也就是人们常说的大数据技术[2]。
  从表面上来看,大数据技术和数据挖掘均是以在海量的数据信息中挖掘出有价值数据信息为目的,但从实际上来说,数据挖掘虽然发展起步时间更早,其并非仅适用于少量的数据挖掘过程中,对于海量数据信息中的数据挖掘也同样可以使用,只不过随着技术手段的革新发展,其被人们命以新的称呼“大数据”,进而使得很多未进行过深入研究的人们认为数据挖掘和大数据技术是两种目的相同,但内容不同的两种技术手段。另外,大数据虽然是以“大”来命名,但其关键点却不是“大”,而是采用一种全新的数据挖掘思维和技术手段,对海量的数据信息进行分析研究,进而获取到其中有价值的数据信息,这些数据信息不仅可以用于对未来发展的分析和评估,还可以根据其中所表现的趋势,对技术和产品进行有效更新[3]。因此,在未来的一段时间内,数据挖掘和大数据技术将会出现共存的情况,此时间将会持续到大数据技术可以完全替代数据挖掘为止。
  2 数据挖掘算法
  对当今主流的数据挖掘算法进行归纳汇总,可以分为关联规则分析算法、聚类算法、预测与回归算法以及索引排序算法四大类,具体内容如下。
  2.1 关联规则分析算法
  关联规则分析算法可以有效确定频繁项集。以著名的啤酒和尿布为例,关联规则分析算法可以通过超市现有的购物数据发现,很多男人在购买啤酒的同时,还会购买尿布,基于此种特点,超市可以通过缩小啤酒和尿布摆放距离的方式来提高两种产品的实际销量。常见的关联规则分析算法有Apriori算法、FP-Growth等,这些算法可以通过设置最小支持度的方式在海量的数据信息中快速搜索频繁项集[4]。
  2.2 聚类算法
  聚类算法可以在海量的数据信息中寻找出较为相似的数据项集。聚类算法可以将诸多具有相似属性的数据信息聚为一类,常见的聚类算法应用如电子商务商品中的相似推荐、音乐软件的相似推荐等。聚类算法中以Kmeans算法和KNN算法最具代表性。很多电子商务平台在为相似的商品推荐相似的用户的时候,就可以通过KNN算法来对相似用户进行寻找,进而达成用户商品推荐效果。
  2.3 预测与回归算法
  预测与回归算法可以以海量的数据为基础,对数据信息的未来走势和发展趋向进行分析判断。常见的预测与回归算法有朴素贝叶斯算法、线性回归算法等。这些算法在实际应用过程中可以通过训练集来有效获取数据预测模型,再通过数据预测模型来获取某些数据信息的未来的预测返回值。其中线性回归算法一般是通过梯度下降法来获取到与模型最匹配的数据参数。
  2.4 索引排序法
  索引排序法中最具代表性的就是谷歌的PageRank算法,此算法是谷歌网络搜索排序中所采用的主要算法,在实际应用过程中,PageRank算法会将某一网站上所链接的数量视作此网站的“热度”,链接数量越多,网站的“热度”也就越高,如此算法便可以判断此网站的潜在价值越高,可以赋予更高的排序,进而使得此网站的实际排序越靠前。具体来說,PageRank算法会将网站视作为图片的节点,将访问网站的链接视作为此网站图片的有向边,并通过邻近矩阵对图片进行表示,通过矩阵的相乘和转置等方式来获取相应的运算结果。
  3 非结构化数据处理流程及方法
  通常来说,非结构化数据处理流程主要分为信息采集、网页分类以及网络预处理三个环节,具体内容如下。
  3.1 信息采集
  信息采集过程就是在海量的,杂乱无序的数据信息中采集到具有一定循序的数据,并将数据存储分门别类存储到数据库中的过程。从功能上来说,信息采集的主要面向对象为业内专业技术人员,且在结合硬件设备性能以及信息采集成本考虑后,信息采集一般不考虑实现全网络信息的快速收集,而是会局限在一定范围中,此范围就是信息采集过程中对互联网上海量的网页进行判断分析,确定哪些网页值得访问,哪些网络不需要进行访问,值得访问的网页就是信息采集局限范围[5]。在确定信息采集范围后,信息采集还会根据自主确定采用何种访问策略进行网页访问,在此过程中不仅需要确保网页访问效率,还需要确保信息采集效果。即先合理设置种子链接集,然后经由HTTP协议访问页面,并对页面进行下载,再通过数据转换、数据分析、模型评估等一系列确定网页与主题之间是否具有联系,最后提取出与主题关联性较大的链接,通过各不相同的爬行策略来获取与主题相关的信息。以采集信息主题的不同对当今常见的信息采集方法进行划分,可以分为基于内容的主体信息采集和基于超链接的主体信息采集两大类。前一类方法在实际应用过程中需要预先构建出一个较为完善,且具有针对性的主题词表;后一类方法则是根据网页之间的相互应用关系进行信息采集。   3.2 网页预处理
  网页预处理就是对信息采集所收集到的数据信息进行筛选的过程,其不仅可以有效提高非结构化数据处理效率,还能够确保数据信息的精准性和有效性。常用的网页预处理算法有哈希算法和文本相似度算法等。其中哈希算法主要用于网页的URL对比去重;文本相似度算法则主要是用于对网页内容的对比去除,两种方法虽然针对的内容不同的,但均是采用的網页归类去重方式。在实际应用过程中,网页预处理需要先对网页内容进行特征提取,即将网页内容分解成为若干个特征集合,此步骤的主要作用是方便后续的特征提取以及相似度对比分析[6]。然后,网页预处理会对特征信息进行压缩编码,此过程不仅可以有效降低特征信息所占用的存储空间,还可能进一步提高网页预处理效率。最后,网页预处理会对分解压缩后的特征信息进行相似度计算分析,基恩洛根据一定的重复比例来判断各网页中是否存在重复网页。在网页预处理过程中,在对网页进行特征信息提取后,通过特定的算法将可以对特征信息转化为一组特定的代码,此代码如指纹一样具有不重复性,所以也被称之为信息指纹。网页预处理的实质就是对信息指纹进行对比分析,若是两网页之间的信息指纹重复量非常大,那么便可以确定此两个网页就是重复网页,需要进行去重处理。
  3.3 网页分类
  网页分类就是通过数据挖掘所获取的分类模型,对去重后的网页进行分类提炼,进而在网页中获取到相关有价值的信息。结合实际情况来看,很多时候人们在对数据信息进行处理时所面临的问题就是信息分类问题,合理的分类将可以将世界变得井井有条,进而降低人们对世界的理解难度。非结构化数据处理流程中的网页分类也发挥着相同的作用,所以在实际应用过程中网页分类环节多使用于信息检索、机器翻译、信息审核、消息分类等领域中,此过程中网页分类会合理选择分类特征词,然后判断数据信息与分类特征值的相似权重来对数据信息进行合理分配。
  4 结束语
  在大数据时代,互联网中海量的数据信息中蕴含着诸多具有利用价值的信息内容,如何对有价值信息进行有效挖掘,是数据使用的重要环节内容。大数据挖掘作为海量数据发掘的技术工具,其可以根据数据信息中某些规律,对海量数据信息进行有效分类整合,然后供使用者进行使用。随着大数据技术的不断普及应用,如今各行各业对于大数据挖掘均有着一定的应用,且随着社会经济与科学技术的不断发展,此应用需求还会不断增加。因此,对大数据挖掘进行相关研究将有着极为重要的现实意义,需要对相关技术进行不断地完善和升级。
  参考文献:
  [1] 龙虎,张小梅.基于大数据的多媒体弱关联数据智能压缩方法研究[J].现代电子技术,2020,43(19):102-105,110.
  [2] 权洁,王丽.基于云计算技术的数据挖掘平台建设策略[J].计算机产品与流通,2020(11):11.
  [3] 郝林倩.基于关联规则的数据挖掘算法分析[J].太原学院学报(自然科学版),2020,38(3):42-45.
  [4] 郭伟伟,吴文臣,隋亮.大数据时代的数据挖掘技术与应用[J].数字技术与应用,2020,38(8):103-105.
  [5] 李金玲.智慧档案系统的功能与数据挖掘及智能利用系统设计研究[J].兰台内外,2020(25):4-6.
  [6] 王茜,平金珍.基于大数据背景的数据挖掘技术算法研究[J].信息与电脑(理论版),2020,32(15):56-58.
  【通联编辑:代影】
转载注明来源:https://www.xzbu.com/8/view-15394607.htm