Chapter 21 Chinese Translation Exploratory Data Analysis and Data Visualization

Translators: Jiaxi Liu & Ruoxi Li Original Author:Chong-ho Yu, Ph.Ds.

You can find the pdf here: https://github.com/Ruoxiiiii/Translation-Script-Exploratory-data-analysis-and-Data-visualization/blob/main/EDA%26Visualization%20Translation%20Script.pdf

1.EDA: 探索侦察型工作 这是对探索性数据分析(EDA)和数据可视化的简要介绍。您将 遇到几个不熟悉的术语和图表,但是此时您不必完全理解它们。 本文的目的是让您知道哪些工具可用以及可以做什么。 EDA的 原理和特定技术将在进一步的阅读中介绍。 当有人声称他们的方法是探索性的时,实际上他们的意思是他们 不知道自己在做什么。不幸的是,经常以EDA的名义进行拙劣的 研究。在数据收集中,由于没有明确定义研究问题并且没有识别 出变量,研究人员用数百页的调查资料充斥了调查对象。确实, EDA不需要预先确定的假设就可以进行测试,但是它并不能证明 没有研究问题和定义不明确的变量,也无法证明每次尝试直到获 得显着的p值(p-hacking)(Jebb) ,Parrigon和Woo,2017年)。 EDA这门技术是丰富且结构合理的。探索性数据分析是对确认数 据分析(CDA)的补充,由约翰·图基(John Tukey)(1977,1980)建 立。 Tukey通常将EDA与侦探工作联系起来。在EDA中,研究人员的作用是以尽可能多的方式探索 数据,直到出现合理的数据“故事”为止。侦探不会收集任何信息。相反,他收集了与案件核心问题 有关的证据和线索。因此,从现在开始,您可以称我为“侦探俞”。

2.EDA的要素 Velleman和Hoaglin(1981)概述了探索性数据分析的四个基本要素,如下所示: ● 数据可视化 ● 残差分析 ● 数据转换或重新表达 ● 稳定性分析过程

  1. 数据可视化 数据可视化的基本原理是:“一张图片值一千字。”从图片检测数据模式比从数字输出检测数据模 式容易。一般而言,研究目标有六大类。所有这些人都可以利用制图技术来加深我们对数据的理 解: ● 发现异常值 ● 区分集群 ● 检查分配和其他假设 ● 检查关系 ● 比较均值差异 ● 观察基于时间的过程 以下是一些示例。这些图的解释非常复杂。只是获得可视化的想法,不要过多的在意细节。 发现异常值 在直方图等一维图表中很容易发现单变量离群值。在多变量情况下,旋转图很有用。请观看此动 画演示。

区分集群 通过可视化,我们可以将变量或主题聚类。此示例显示了如何使用笔刷对主题进行聚类以帮助进 行回归分析。请观看此动画演示。

检查分布和其他假设 许多参数测试都需要数据规范性。研究人员可以使用简 单的直方图来检查分布。一种更复杂的方法是使用正态 概率图检查数据。如果数据完全正常,则图形应显示对角 直线。与直线的偏离表示不正常的程度。

检查关系 当存在交互作用时,回归线在其他变量的所有级别上均 不一致。移动的网格表面描述了这种变化。如果动画使您 烦恼,请按浏览器上的“停止”按钮以冻结动画。这种类型 的数据可视化可以在Mathematica和DataDesk中执行。

比较小组差异 通常使用参数检验(例如t检验或F检验)来比 较均值差异。但是,可以使用图形来补充测试 统计信息。一个典型的例子是使用单元均值图 来检查主要作用和相互作用作用。用于比较差 异的高级图形示例包括菱形图和杠杆图。

  1. 残差分析 译文: EDA遵循数据=拟合+残差 或者 数据=模型+误差的模 型。拟合或模型是数据的期望值。残差或误差是偏 离该预期值的值。通过检查残差,研究人员可以评 估模型的适当性。一个简单的例子可以在回归分析 中找到。左侧的散点图显示了回归模型中的残差。 今天,不难理解为什么我们应该检查残差以检查数 据对模型的拟合程度。但是,“剩余”是一个现代概 念。几个世纪前,即使是训练有素的科学家对”残差” 这一概念的感受也很弱。 *不幸的是,目前,这个问 题仍然存在于一些倾向于将建模视为理所当然而忽 略残差的研究人员中。 过去,这种迭代过程是由分析人员手动执行的,例如 2-way fit方法。今天,机器学习算法可自动执行此过 程。 Boosting,也称为boosted树,是自动迭代的一 个很好的例子。

5.数据转换和重新表达 数据转换发生在我们的日常生活中:将美元转换为加元,将5分制的GPA转换为4分制的GPA。但是 ,这些示例属于线性变换,因此不影响数据的分布。在EDA中,通常使用非线性变换,从而改变数 据模式。数据重新表达本质上是探索性的,因为在进行转换之前,研究人员永远不知道哪种重新 表达方法可以达到理想的结果。 数据转换有四个主要目标: ● 标准化分布 :非常规数据违反了参数测试的假设,因此建议进行转换。常见的误解是将原 始分数转换为z分数会产生正态分布。实际上,原始到z的转换是线性转换。下图显示了从 原始到z的转换后,z得分的分布形状仍然类似于原始得分。适当的过程应该是自然对数变 换或逆概率变换。 ● 稳定差异:方差不相等的数据也不利于参数测试。方差稳定化变换的一个典型示例是平方 根变换:y * = sqrt(y)。 ● 线性化趋势: 回归分析需要线性假设。当数据显示曲线关系时,研究人员可以应用非线性 回归分析,也可以通过线性化变换对数据进行拉直。对数转换是后者的典型示例。 ● 正交化共线变量: 在多元回归中,预测变量之间缺乏独立性会使模型不稳定。就超空间而 言,代表这些变量的向量是非正交的。为了纠正这种情况,可以使用Gram–Schmidt过程或 其他转换技术,通过将分数居中来使变量正交。

但是,每种统计程序都有其局限性,应谨慎使用。数据转换也不例外。 Osborne(2002)建议应适 当使用数据转换。许多转换通过更改数据点之间的间距来减少非正态性,但是这在数据解释中提出了问题。如果正确完成了转换,则所有数据点应保持与转换之前相同的相对顺序,并且这不会 影响研究人员解释分数。但是,对于那些需要以直截了当的方式(例如年收入和年龄)来解释的 原始变量,数据转换就可能会出现问题。因为转换后,新变量的解释可能会变得更加复杂。

  1. 抵抗程序 参数测试基于均值估计,均值对异常值或偏斜分布敏感。在EDA中,通常使用鲁棒的估计器。例如 : ● 中位数:数据的中间点。 ● 三均值:根据第一四分位数,第三四分位数和中位数两次的算术平均值计算的集中趋势的 度量。 ● Winsorized均值:均值的可靠版本,其中极端得分被拉回到大部分数据中。 ● 切尾均值:没有异常值的均值 在您的第一节统计课程中,您就能了解到众数对异常值的抵抗力比中值大。您可能会问为什么使 用中位数而不是众数。确实,在大多数情况下,中位数和众数对异常值具有同样的鲁棒性。请观看 此动画演示。 重要的是要指出,尽管“抵抗性”和“鲁棒性”通常可以互换使用,但它们之间存在细微的差别。 EDA更加关注抵抗力,而假设检验则更加关注鲁棒性。抵抗力是关于不受异常值影响的,而鲁棒 性是关于不受违反原假设带来的影响。在前者中,目标是获得数据摘要,而在后者中,目标是进行 概率推断。

7.推荐用于EDA的软件 ● DataDesk DataDesk(数据描述公司,2008年)由John Tukey的学生Paul Velleman开发。 DataDesk是探索性 数据分析初学者的理想工具。 它具有丰富的功能和足够的灵活性,可以进行操作,但是对计算机 操作的了解很少。 例如,可以使用DataDesk中的各种转换函数来执行上述数据重新表达。 DataDesk具有一个称为Data Desk Plus的更丰富的版本,其中包含名为ActivStat的基于多媒体的 统计教程。

● JMP JMP(SAS研究所,2016)是一个非常通用的统计程序。 JMP有两种变体,即JMP和JMP Pro。 顾名 思义,JMP Pro是一个专业版本,其中包含许多强大的过程。 但是对于大多数用户而言,JMP足以 满足EDA的要求。 像DataDesk一样,JMP具有内置的数据转换选项,如下所JMP的设计原理类似于苹果iPod的设计原理。 安装后,您无需阅读手册即可开始浏览数据。 除了直方图和箱线图之类的常用图形功能外,JMP中的“图形生成器”还为用户提供了地理信息系统( GIS)。

● XLISP-STAT 如果您希望通过编程获得完全的控制权,则应考虑XLISP-STAT。例如,在数据可视化中,它涉及数 据平滑。通过编程,您可以查看不同详细程度的数据。 LISP代表列表处理。有人称其为“很多白痴和愚蠢的括号”。 LISP由John McCarthy在MIT于1956-62 年创建,用于非数值计算。后来,它专门用于人工智能的开发。 LISP有许多不同的版本,例如普 通Lisp,Franz LISP等XLISP是David Betz开发的许多方言之一。后来,LukeTierney(1990)开发了 用于统计可视化的XLISP-STAT。该软件包具有许多内置的统计图形功能。 Cook and Weisberg( 1994)基于XLISP-STAT,开发了一套称为R-code的回归绘图工具。另一个名为ViSta的综合EDA软 件包(Young,1999)也用XLISP-STAT编写。 XLISP-STAT是跨平台的。但是,它是一种解释性语言,而不是一种编译语言,因此,必须将编写的 程序加载到XLISP-STAT中才能运行它。

  1. 更多参考 Tukey(1977)的书被认为是EDA中的经典著作。 在他的时代,计算机资源不容易获得,但是如今, 他建议的大多数图形技术可在许多软件包中使用。 Behrens(1997)和Behrens&Yu(2003)对于初学者和中级学习者都是必不可少的。 这两章都涵盖 了可视化,数据转换,残差分析和抵抗过程的详细信息,本课对此进行了简要介绍。 有关EDA的快速概述,请访问NIST工程统计手册。 尽管此站点提供了许多图形技术示例,但并未 告诉您哪些特定的软件包可以生成这些图形。 有关EDA的哲学基础,请咨询Yu(1994年4月,2006年)。 EDA是一种哲学/态度,而不是技的术集 合。 要更深入地了解数据可视化,请阅读Yu和Behrens(1995)和Yu(2010,2014)。

9.注解 *例如,被认为是现代遗传学创始人的格雷戈尔·孟德尔(Gregor Mendel,1824-1884年),通过他的 科学发现确立了物种的物理特性受遗传影响的观念。孟德尔进行了一次受精实验,以证实他的信 念。在他的实验中,他跟踪了几代植物,观察特定基因如何从一代传到另一一代。尽管报告的数据 在很大程度上符合遗传假说,但R. A. Fisher(1936)质疑孟德尔研究的有效性。费舍尔指出孟,德 尔的数据“实在太好了”。通过卡方检验,费舍尔发现孟德尔的结果是如此接近预期,以至于这种协 议偶然发生的可能性少于万分之一。 另一个例子可以在约翰内斯·开普勒(Johnannes Kepler,1571-1630)的故事中找,到他是第一位提 出将地球和其他行星以椭圆形绕太阳公转的提议的天文学家,而不是像伽利略所相信的那样绕太 阳公转。开普勒在另一个著名的天文学家布拉赫(Brahe)的指导下工作,布拉赫收集了庞大的行 星轨道数据库。利用Brahe的数据,开普勒发现数据适合椭圆假设,而不是圆形假设。然而,将近 400年后,当威廉·多纳休(William Donahue)重新提出开普勒的计算结果时,他发现轨道数据和椭 圆模型并不完全吻合。 此外,有一个广泛的城市传说,英国物理学家亚瑟·爱丁顿(Arthur Eddington)通过观察19年19日食 期间恒星的位置,证实了爱因斯坦的广义相对论。但是,在1980年代,学者发现爱丁顿确实收集 了足够的数据来得出结论。相反,他扭曲了结果以使其符合理论(Swayer,2012)。 开普勒,孟德尔和爱丁顿不是仅有的三位未能接受数据和模型之间残差的科学家。威廉·哈维( William Harvey),艾萨克·牛顿(Isaac Newton)和查尔斯·达尔文(CharleDsarwin)也有同样的问 题。这个清单不胜枚举。在回顾科学史上的这一现象时,一些学者谴责那些科学家犯有欺诈罪。 Press and Tanur(2001)用温和的语气说,问题是由“科学家的主观性”引起的。 我的观点是,这些科学家对残留物的意识较弱。他们以确认性方式进行科学,其中只能得出二分 法的答案。即使存在残差,它们也倾向于包含模型,因为通过承认任何不一致之处,整个模型都会 被拒绝。换句话说,他们接受了DATA = MODEL的概念。 修订日期:2017年5月

  1. 参考文献 ● Behrens,J.T。(1997)。探索性数据分析的原则和程序。心理方法,第2卷,第131-16页0 。 ● Behrens,J.T.,&Yu,C.H.(2003)。探索性数据分析。在J. A. Schinka和W. F. Velicer(编辑) 中。心理学手册第2卷:心理学研究方法(第33-64页)。新泽西州:John Wiley&Sons,Inc. ● Cook,D. R.和Weisberg,S.(1994)。回归图形简介。纽约:威利。 ● 数据描述公司(2008)。 DataDesk。 [在线]可用:http://www.datadesk.com ● Fisher,R.A.(1936年)。孟德尔的作品被重新发现了吗?科学年鉴,第1卷,第115-137页。 ● Jebb,A.,Parrigon,S.&Woo,S.E.(2017年)。探索性数据分析是归纳研究的基 础。人力资 源管理评论,第27期,第265-276页。 ● Osborne,J。W.(2002)。有关使用数据转换的注意事项。实用评估,研究与评估,8(6)取 自:http://pareonline.net/getvn.asp?v=8&n=6 ● Press,S.J。,和Tanur,J.M。(2001)。科学家的主观性和贝叶斯方法。纽约:约翰·威利父子( John Wiley&Sons)。 ● SAS研究所。 (2016)。 JMP [计算机软件]。卡里,北卡罗来纳州:作者。 ● Swayer,R.K.(2012年)。解释创造力:人类创新的科学(第二版)。纽约,纽约:牛津大学出版 社。 ● Tierney,L.(1990)。 Lisp-Stat:用于统计计算和动态图形的面向对象的环境。纽约:威利。 ● Tukey,J.W。(1977)。探索性数据分析。马萨诸塞州雷丁:Addison-Wesley出版公司。 ● Tukey,J.W。(1980)。我们需要探索性和确认性。美国统计学家,第34页,第23-25页。 ● Velleman,P.F.和Hoaglin,D.C.(1981)。探索性数据分析的应用程序,基础知识和计算。马 萨诸塞州波士顿:达克斯伯里出版社。 ● Young,F.(1999)。 ViSta [计算机软件]。取自http://www.uv.es/prodat/ViSta/ ● Yu,C.H.(1994年4月)。就职?扣除?绑架? EDA有逻辑吗?该论文在路易斯安那州新奥 尔良举行的美国教育研究者协会年会上发表。 (ERIC文件复制服务,编号ED 376 173) ● Yu,C.H。和Behrens,J.T。(1995)。科学多元可视化在行为科学中的应用。行为研究方法, 仪器和计算机,第2卷,第264-271页。 ● Yu,C.H.(2010年)。在数据挖掘和重新采样的背景下进行探索性数据分析。国际心理研究 杂志,3(1),9-22。取自 http://mvint.usbmed.edu.co:8002/ojs/index.php/web/article/download/455/460 [镜像]。 ● Yu,C.H.(2006年)。定量研究方法论的哲学基础。医学博士兰纳姆:美国大学出版社。 ● Yu,C.H.(2014年)。与数据共舞:数据可视化的艺术和科学。德国萨尔布吕肯(Saarbrucken ):LAP。

补充:关于数据可视化软件的更多介绍 Tableau: Tableau的真正目的是一个简单的数据可视化工具。开发该工具旨在洞察无法通过盯着电子表格 来快速回答的问题。自成立以来,它已发展成为地球上最流行的数据可视化和报告工具之一。使 用Tableau,用户可以以惊人的速度开发交互式仪表板和可视化文件。相较于其他可视化软件, Tableau有以下几点突出优势: (1) 快速创建交互式可视化:使用Tableau的拖放功能,用户可以在数分钟内创建非常互动的视觉效 果。该界面可以处理无尽的变化,同时还限制您创建违反数据可视化最佳做法的图表。您可以查 看Tableau Gallery上创建的一些惊人的视觉效果。 (2) 易于实施:Tableau中提供了许多不同类型的可视化选项,可以增强用户体验。而且,与Python ,Business Objects和Domo相比,Tableau非常易于学习,任何不具备编码知识的人都可以轻松学 习Tableau (3) 处理大量数据:Tableau可以轻松处理数百万行数据。可以使用大量数据创建不同类型的可视 化文件,而不会影响仪表板的性能。另外,Tableau中有一个选项,用户可以使它“实时”建立到不 同数据源(如SQL等)的连接。 (4) 使用其他脚本语言:为了避免性能问题并在Tableau中进行复杂的表计算,用户可以合并使用 Python或R。使用Python脚本可以通过对数据包执行数据清除任务来减轻软件的负担。但是, Python不是Tableau接受的本机脚本语言。因此,您可以导入一些视觉效果或包装。但是,您可以 看到使用Power BI的Python如何解决此问题。

R: 使用R提供的各种数据包, 仅需几行代码就可以创建具有视觉吸引力的数据可视化。常用的10大数 据可视化数据包有plotly, ggplot2, tidyquant, taucharts, ggiraph, geofacets, googleVis, RColorBrewer, dygraphs, shiny。 (1) Plotly软件包提供了在线互动图和质量图。该软件包扩展了JavaScript库 (2) ggplot2以其优雅和高质量的图形而闻名,这使其与其他可视化程序包区分开来。 (3) Tidyquant是用于执行定量财务分析的财务软件包。该软件包在tidyverse Universe下添加为财 务软件包,用于导入,分析和可视化数据。 (4) Taucharts提供了一个声明性接口,用于将数据字段快速映射到视觉属性。 (5) Ggiraph是允许我们创建动态ggplot图的工具。该软件包使我们可以在图形中添加工具提示, JavaScript操作和动画。 (6) Geofacets软件包为“ ggplot2”提供了地理标注功能。 Geofaceting将针对不同地理实体的一系 列绘图安排到保留某些地理方位的网格中。 (7) GoogleVis在R和Google的图表工具之间提供了一个界面。借助此软件包,我们可以基于R数据 框创建具有交互式图表的网页。 (8) RColorBrewer提供了由Cynthia Brewer设计的地图和其他图形的配色方案 (9) Dygraphs包是dygraphs JavaScript图表库的R接口。它提供了丰富的功能来绘制R中的时间序 列数据。 (10) Shiny使我们能够通过提供闪亮的程序包来开发交互式且美观的Web应用程序。该软件包提 供了HTML窗口小部件,CSS和JavaScript的各种扩展

Python: Python具有一些最具交互性的数据可视化工具。最基本的绘图类型在多个库之间共享,但是其他 类型仅在某些库中可用。数据科学家经常使用的数据可视化库是Matplotlib, Seaborn 和 Plotly。 (1) Matplotlib是最受欢迎的Python数据可视化库。它用于生成简单而强大的可视化。从初 学者到 经验丰富的数据科学专业人士,Matplotlib是最广泛使用的绘图库。 (2) Seaborn提供了多种可视化模式。与matplotlib相比,它与Pandas数据框的集成度更高。 Seaborn被广泛用于统计可视化,因为它具有一些内置的最佳统计任务。 (3) Plotly主要用于处理地理,科学,统计和财务数据。