您好, 访客   登录/注册

数据可视化分析综述

来源:用户上传      作者:

  摘要:目前,人类社会正处于大数据爆发的时代,多元化数据涌现和信息激流使人、企业和社会对大数据的依赖在不断深化,与此同时,数据可视化研究已成为一个新的时代命题。就数据可视化展开综述,介绍了数据可视化的概念、发展历史,然后对数据可视化中的数据进行了详细阐述,列举了可视化的常用工具及数据可视化图表。
  关键词:数据可视化;数据分析;可视化工具;可视化图表
  中图分类号:P208
  文献标识码:A
  DOI: 10.15913/j.cnki.kjycx.2019.11.030
  如今,数据可视化不是一个新主题,但它的价值日益增加,其不仅能将凌乱的数字转变为美丽的景色,也能实现凌乱、难以“看穿”数据信息到直观且易于理解的企业决策信息的变化。在提升企业形象的同时,它提高了公司的收入,被称为企业问题的“美丽杀手”,它是技术与艺术的完美结合。
  1 数据可视化简介
  1.1 数据可视化
  数据可视化是关于数据视觉表现形式的科学和技术研究。数据可视化技术充分使用图形、图像处理、计算机视觉和用户界面来表达、建模和显示立体、表面、属性和动画,对数据加以可视化解释。
  1.2 数据可视化历史
  1.2.1 18世纪——数据可视化的起源
  数据可视化起源于18世纪,William Playfair在出版的书籍《The Commercial and Political Atlas》中第一次使用了柱形图和折线图。世界上第一个饼图显示了1789年土耳其帝国在亚洲、欧洲和非洲的疆土比例。
  1.2.2 19世纪——数据可视化的第一个黄金时期
  在19世纪上半叶,数据开始受到关注,统计数据和概念图爆炸式增长,包括直方图、饼图、直方图、折线图、时间轴、轮廓等;在19世纪中期,数据可视化主要用于军事目的;19世纪下半叶,进入了数据可视化的黄金时代。
  1.2.3 20世纪前期——现代启蒙
  20世纪上半叶,人们第一次意识到图形的显示方式为航空航天、物理学、天文学和生物学领域的科学和工程提供了新的见解和发现机会。
  1.2.4 20世纪中后期——新的生命力
  从20世纪60年代到70年代,数据可视化依赖于计算机科学和技术,具有新的活力;从20世纪70年代到80年代,人们主要尝试使用多维定量数据的静态图来表示静态数据;在20世纪80年代中期,动态统计图表开始出现,最后两种方式在20世纪末开始合并,试图实现动态的交互式数据可视化。因此,动态交互式数据可视化已成为一个新的发展主题。
  1.2.5 21世纪——大数据时代
  当世界在2003年创建5个EB数据时,人们开始关注大数据的处理;2011年,世界上每天新增数据量开始呈指数级增长,用户使用数据的效率也在不断提高;2012年,我们进入数据驱动的时代。掌握数据意味着掌握发展方向,因此人们对数据可视化技术的依赖也在不断深化。大数据可视化研究已成为一个新的时代命题。
  2 数据与可视化
  2.1 数据释义
  关于数据的定义,大多数人含糊不清地回答说数据类似电子表格或很多数字,而具有一些技术背景的人会提到数据库或数据仓库。但这些答案仅描述了数据的格式和数据的存储方式。要想可视化数据,则必须知道它所表达的内容。
  2.2 可视化工具
  2.2.1
  Microsoft Excel
  Excel是常用的入门级数据可视化工具。输入某些数据后,单击菜单栏中的“图表”选项以生成所需的图表。Excel提供了多种标准图表类型供用户选择,包括柱形图、折线图、饼图和散点图。
  Excel虽然不适合用来做深度分析,生成的图表也不会用于出版,但它方便快捷,随手点击几下鼠标就可以用它生成一个图形。正是Excel的方便易用让它获得了大众的青睐,但如果想要高质量的数据图就不要止步于此,其他工具会更适合。
  2.2.2 Tableau
  Tableau是一种用于数据可视化敏捷开发和实现的商业智能演示工具,可用于实现交互式、可视化分析和仪表板应用程序。数据可视化允许将枯燥的数据呈现在简单、友好的图表中,这是最直观、最有效的分析方法,没有过多的技术基础,任何人可以轻松学习Tableau,并使用其可视化功能来处理和显示数据,以便更好地分析表面数据。
  作为轻量级可视化BI工具的良好代表,Gartner的商业智能和分析平台魔力象限于2015-02发布,已连续第三次蝉联领先者。德国电子商务网络的数据科学家也认为,拥有像Tableau这样的工具就足够了,无论是报告还是挖掘数据并进行分析。
  2.2.3 Python
  Python是一种解释型、面向对象、动态数据类型的高级程序设计语言,在重视开发功率和科技不断开展的背景下,Python得到越来越多人的青睐。根据IEEE Spectrum发布的一项研究,2016年排名第三的Python已成为2017年全球最受欢迎的语言,C语言和Java分别位居第二和第三。
  Python具有以下特性:①易于学习。Python的关键字相对较少,结构简单,语法定义明确,而且学习起来相对简单。②易于阅读。Python代码的定义比较清晰,易于阅读。③易于维护。Python的成功在于它的源代码是相當容易维护的。④具有一个广泛的标准库。Python的最大优势之一是具有丰富的库,它是跨平台的,具有良好的兼容性。⑤可移植。基于其开放源代码的特性,Python已被移植到许多平台。2.2.4 R
  R是一款免费的开源统计计算软件,具有强大的图形功能。它也是统计学最流行的分析软件之一。R专为数据分析而设计,还有很多支持R的工具包。只需要将数据加载到R中并编写一行或两行代码来创建数据图。   用R能做很多事情:它能够生成较高打印质量的图像,并且非常灵活;也可以编写人格的功能或包,以人希望的方式创建图形,或可以借用R库中其他人开发的成品。R提供了基本的绘图功能,可以根据需要绘制所需的图形,比如线条、形状和坐标轴。实际上,任何类型的图表都可以使用R或R工具包实现。
  2.3 数据可视化的图表
  实现可视化是为了证实我们对数据的认识,创建可视化的一个挑战是学习正确的绘图方法。数据可视化有很多类型的图表,比如条形图、饼图、折线图、散点图、气泡图、甘特图、核密度估计图、箱线图和打包图等,这里列举一些常用的图表。
  2.3.1 条形图
  条形图(也称为条形图、条形图和柱形图)是最常用的图表类型之一,通过垂直或水平条显示维度字段的分布。水平条形图是一般意义上的条形图,垂直条形图通常称为柱形图。条形图最适合比较不同类别的大小。
  2.3.2 饼图
  饼图在数据分析中无处不在。饼状图可以用于比较数值的大小,但是有一个缺点:如果数值之间差距不大,肉眼很难分。因此,最好用于表示某一个值占全体值的百分比。饼图的每个部分都标有标签,或者可以用一条线连接到外部表示。另外,饼状图还有一些变种,比如各扇形的半径不同,该半径可表示另一个数据量。
  2.3.3 折线图
  折线图是一种经常使用的图表。与条形图相比,折线图不仅可以指示数量,还可以直观地反映随时间序列变化的相同事物的趋势。折线图比较适合连续、大量的数据,而且折线图用于表示多个数据集之间的比较时,效果较好。
  2.3.4 散点图
  散点图使用三维数据集,将二维数据分别映射到x轴和y轴,然后第三维用点表示。散点图的数据通常是点的集合,通常用于绘制各种依赖关系。比如正相关表示随着一组数据递增,其他数据也递增。一些著名的案例为男性和女性人群中不同年龄患皮肤病可能性、智商测试分数与GPA之间的关联。
  参考文献:
  [1]科斯·拉曼.Python数据可视化[M].程豪,译.北京:机械出版社,2017.
  [2] YAUN.鲜活的数据:数据可视化指南[M].向怡宁,译.北京:人民邮电出版社,2012.
  [3]吕之华.精通D3js:交互式数据可视化高级编程[M].北京:电子工业出版社,2015.
  [4]陈为,沈则潜,陶煜波.数据可视化[M].北京:电子工业出版社.2013.
  [5]周苏,张丽娜,王文.大数据可视化技术[M].北京:清华大学出版社,2016.
  [6] KRUMR,唐沁,周優游.可视化沟通[M].张璐露,译.北京:电子工业出版社,2014.
  [7] EDWARD R T.Visual Explanations: Images andQuantities, Evidence and Narrative[M].Nuneaton:Graphics Press,1997
  [8] MAARTEN H E, BEKKER H, ISENBERH T, et al.Depth-dependent halos: illustrative rendering of denseLine data[J].IEEE Transactions on Visualization andComputer Graphics, 15(6),2009: 1299-1306.
转载注明来源:https://www.xzbu.com/1/view-14992193.htm