科百科
当前位置: 首页 范文大全

数据可视化在大数据分析中的作用(大数据产品经理必备的数据挖掘知识概述)

时间:2023-08-20 作者: 小编 阅读量: 3 栏目名: 范文大全

每个点对应于每个数据集的相同的分位数,并对该分位数显示部门1和部门2的销售商品单价。散点图,是确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方式之一。用于观察点镞和离群点,或考察相关联系的可能性。比如他们并不显示在多维子空间是否存在稠密区域。它把多达18个维的数据以卡通人脸显示,有助于揭示数据中的趋势。下图显示人口普查数据,其中age和income被银蛇到显示轴,而其他维被映射到任务线条画。

数据经过获取、存储、分析之后,最终目的还是为了给用户进行展示,以达到决策依据的目的。那么如何有效的将数据展示给用户呢?——数据可视化。

1.2 数据可视化

数据经过获取、存储、分析,其最终目的是为了给用户进行展示,以达到决策依据的目的。

那么如何有效的将数据展示给用户呢?数据可视化,旨在合理利用图形清洗有效的表达数据的含义。

本节我们从一维到多维数据开始讨论一些基本数据可视化的表示方法,包括直方图、散点图、基于像素的技术、基本图符的技术、几何投影技术以及层次可视化和基于图形的可视化技术,以此讨论复杂数据对象和关系的可视化展示。(文中知识大多摘自《数据挖掘》一书,感兴趣的同学可以直接阅读此书)

1.2.1 基本的统计描述可视化

首先我们先研究常见的基本的统计描述图形,包括分位数图、分位数-分位数图、直方图和散点图。这些图有助于可视化地审视数据,对于数据预处理是有用的。前三种图显示一元分布(即,一个属性的数据),而散点图显示二元分布(即涉及两个属性)。

分位数图,是一种观察单变量数据分布的简单有效方法。首先,它显示给定属性的所有数据(允许用户评估总的情况和不寻常的出现);其次,它绘制分位数信息。

如下图:

分位数-分位数图,或q-q图对着另一个对应的分数,绘制一个单变量分布的分位数。它是一种强有力的可视化工具,使得用户可以观察从一个分布到另一个帆布是否漂移。

如下图显示给定时间段内两个不同部门销售的商品的单价数据的分位数-分位数图。每个点对应于每个数据集的相同的分位数,并对该分位数显示部门1和部门2的销售商品单价。

通过上图,在Q1我们看到部门1的销售的商品单价部门2低。换言之,部门1销售的商品25%低于或等于60美元,而在部门2销售的商品50%低于或等于78美元,而在部门2销售的商品50%低于或等于85美元。

一般地,我们注意到部门1的分布相对于部门2的一个漂移,因为部门1的销售的商品单价趋向于部门2低。

直方图,或成频率直方图,出现久远使用广泛。不做赘述。

尽管直方图被广泛应用,但是对于比较单变量观测组,它可能不如分位数图、q-q图和盒方图有效。

散点图,是确定两个数值变量之间看上去是否存在联系、模式或趋势的最有效的图形方式之一。

用于观察点镞和离群点,或考察相关联系的可能性。如下图,对于两个属性X,Y,如果标绘点的模式从左下到右上倾斜,则意味X的值随Y的值增加而增加,暗示正相关,如果标绘点的模式从左上到右下倾斜,则意味X随Y值减小而增加,暗示负相关。可以画一条最佳拟合的线,研究变量之间的相关性。

散点图可以用来发现属性之间的相关性

三种情况,其中每个数据集中两个属性之间都不存在观察到的相关性。

基本的数据描述图形展示(如分位数图、直方图和散点图)提供了数据总体情况的有价值的洞察,有助于识别噪声和离群点,对数据清理特别有用。

1.2.2 基于像素的可视化技术

前面讨论的是单变量数据,对于一个m维数据集,基于像素的技术在屏幕上创建M个窗口,每维一个。记录的m个维值映射到这些窗口中对应位置上的m个像素。像素的颜色反应对应的值。诸如此以像素的颜色反映维值称为基于像素的可视化技术。

例如,顾客信息表,包含4个维度:in_come(收入),credit_limit(信贷额度),transaction_volume(成交量)和age(年龄)。我们能够通过可视化技术分析income与其他属性之间的相关性吗?

我们可以对所有顾客按收入的递增序排序,并使用这个序,在4个可视化窗口安排顾客数据,如下图。值越小,颜色越淡。

使用基于像素的可视化,我们可以很容易的得到如下观察:credit_limit随income增加而增加;收入处于中部区间的顾客更可能购物;income与age之间没有明显的相关性;

其他形式,如空间填充曲线、圆弓分割技术等;(感兴趣的同学可以做更深入的学习)

一些频繁使用的二维空间填充曲线;

圆弓技术:a)在圆弓内表示一个数据记录;b)在圆弓内安排像素。

1.2.3 几何投影可视化技术

对于基于像素的可视化技术存在一个缺点即他们对于我们理解的多维空间的数据分布帮助不大,不是很容易理解。比如他们并不显示在多维子空间是否存在稠密区域。

几何投影技术可帮助用户更好的发现和理解多维数据集的有趣投影。几何投影技术的首要挑战是设法解决如何在二维显示上可视化高维空间。

散点图:使用笛卡儿坐标显示二维数据点。使用不同的颜色或形状表示不同的数据点,可以增加第三维。例如两个空间属性X,Y,而第三维用不同的形状显示。通过这种可视化技术,我们可以看“ ”“X”类型的点趋向于一起出现。

二维数据集使用散点图可视化,资料来源:www.cs.sfu.ca/jpei/public-tions/rareevent-geoinformatica06.pdf

散点图使用笛卡儿坐标系的三个坐标轴,如果也使用颜色,它可是显示4维数据点。如下图:

三维数据集使用散点图可视化

散点矩阵图:对于维数超过4的数据集,散点图一般不太有效。散点图矩阵是散点图的一种扩充,提供每个维与所有其他维的可视化。

如下图显示的是一种花的数据集。共450个样本,取自3种花。共5个维度:萼片长度和宽度、花瓣长度和宽度,以及种属。

散点图矩阵可视化

平行坐标:随着维数的增加,散点图矩阵变得不太有效。平行坐标可以处理更高的维度,其绘制n个等距离、互相平行的轴,每维一个。数据记录用折线表示,与每个轴在对应相关维值得点上相交,如下图:

使用平行坐标可视化,资料来源:http://support.sas.com/documentation/cdl/en/grstatproc/61948/THML/default/images/gsgscmat.gif

1.2.4 基于图符的可视化技术

基于图符的可视化技术使用少量图符表示多维数据集。我们讨论两种图符技术,切尔诺夫脸和人物线条画。

切尔诺夫脸是统计学家赫尔曼.切尔诺夫于1973年引进的。它把多达18个维的数据以卡通人脸显示,有助于揭示数据中的趋势。

维可以映射到如下面部特征:眼的大笑、两眼的距离、鼻子长度、眼球大小、眉毛倾斜、眼睛偏离程度和头部偏离程度。切尔诺夫脸利用人的思维能力,识别面部特征的微笑差异并立即消化理解许多面部特征。

缺点是未显示具体的数据值。

切尔诺夫脸,每张脸表示一个N维数据点(n<=18)

已经提出非对称的切诺夫脸作为原来技术的扩展,感兴趣的同学可以深入学习。

人物线条脸是可视化技术把多维数据映射到5-段人物线条画,其中每个画都有四肢和一个躯体。两个维被映射到显示轴(x和y轴),而其余的维映射到四肢和长度。

下图显示人口普查数据,其中age和income被银蛇到显示轴,而其他维被映射到任务线条画。如果数据项关于两个显示维度相对稠密,则结果可视化显示纹理模式,反映数据趋势。

用人物线条画表示的人口统计数据,资料来源:G.Grinstein教授,马萨诸塞州大学(费弗尔)计算机科学系

1.2.5 层次可视化展示

迄今为止所讨论的可视化技术都关注同时可视化多个维,然而,对于大型高纬数据集,很难同时可视化所有维,层次可视化技术把所有维划分成子集(即子空间),这些子空间按层次可视化。

“世界中的世界”又称n-Vision,是一种具有代表性的可视化方法。

假设我们想对6维数据集可视化,其中维是F,X1,….X5,我们想观察维F如何随其他维变化,我们可以把所有维固定为某选定的值,比如C3,…C5,然后可以使用一个三维图(称做世界)对所有维进行可视化,如图,内世界的原点位于外世界的点(C3,C4,C5)处;为世界是一个三维图,使用为X3,X4,X5。

用户可以在外世界中交互地改变内世界的原点的位置,然后观察内世界的变化结果。此外,用户可以改变内世界和外世界使用的维。给定更多维,可以使用更多的世界层,这就是该方法称做“世界中的世界”的原因。

“世界中的世界”又称n-Vision资料来源:http://graphics.cs.columbia.edu/projects/AutoVisual/1.dipstick.5.gif

层次可视化方法的另一个例子是树图(tree-map),它把层次数据显示成嵌套矩形的集合。

例如下图,显示了对Google新闻报道可视化的树图。所有的新闻报道组织成7个类别,每个显示在一个维-颜色的举行中。在每个类别内(即在最顶层每个举行内),新闻报道进一步划分成较小的子类别。

新闻图:使用属兔对Google新闻报道标题可视化。资料来源:www.cs.umd.edu/class、spring2005/cmsc838s/viz4all/ss/newsmap.png

1.2.6 可视化复杂对象和关系

可视化技术除了对于数值数据,还包括对非数值数据的可视化技术,如文本和社会网络可视化已经成为可利用的,且备受关注。

许多可视化技术专门用户非数值类数据,如Web上许多对诸如图片、博客和产品评论加标签。

标签云,是用户产生的标签统计量的可视化技术。在标签云中,标签通常按字母次序或用户指定的次数列举。如下图,显示了一个对Web站点使用的流行标签可视化的标签云。

使用标签云对Web站点上使用的流行标签可视化。资料来源:www.flickr.com/photos/tags/2010年1月23日快照

通常,标签云用法有两种,一是对于单个术语,我们可以使用标签的大小表示该标签被不同的用户用于该术语的次数,二是在多个术语上,可视化标签统计量时,我们可以使用标签的大小表示该标签使用的次数,即标签的人气。

除了复杂的数据之外,数据项之间的复杂关系也可视化提出了挑战。

例如,下图使用疾病影响图来可视化疾病之间的相关性。图中的结点是疾病,每个结点的大小与对应疾病的流行程度成正比。如果对应的疾病具有强相关性,两个结点用一条边连接。边的宽度与两个对应的疾病的相关程度成正比。

NHANES数据集中20岁以上的人的疾病影响图

综上所述,可视化技术为探索数据提供了有效的工具。我们介绍了一些流行的方法和他们的基本思想。有许多现成的工具和方法。

此外,可视化可以用于数据挖掘的若干方面。除了数据可视化之外,可视化也可以用于表现挖掘过程、从挖掘方法得到的模式,以及用户与数据交互。可视化挖掘是一个重要的研究开发方向。

本文由 @一毛硬币 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

,
    推荐阅读
  • 英国国王查理一世评价(现在的英国国王是查理三世)

    前几天,英国历史上在位时间最长的女王伊丽莎白二世去世,其长子查尔斯继位。在克伦威尔“新模范军”的奋战下,查理一世成为内战的失败者。查理一世就此达成了两项历史记录:欧洲历史上第一位被公开处死的国王、英格兰历史上唯一被公开处死的国王。在推翻“护国主”之后,英格兰统治阶层决定恢复君主制,拥立查理一世之子为英格兰兼苏格兰国王,是为查理二世。而他生前埋下的雷在其弟詹姆士二世继位后引发了英国“光荣革命”。

  • 故宫相关资料(关于故宫的介绍)

    故宫相关资料故宫位于北京市中心,旧称紫禁城。故宫有四个大门,正门名为午门,其平面为凹形。午门后有五座汉白玉拱桥通往太和门。东门名东华门,西门名西华门,北门名神武门。故宫的四个城角都有角楼,高27.5米,十字屋脊。用这样多的汉白玉装饰的三台,造型重叠起伏,这是中国古代建筑上具有独特风格的装饰艺术。每到雨季,3台雨水逐层由各小洞口下泄,水由龙头流出。

  • 外国人第一次吃砂糖橘(七杯茶专栏)

    在“强烈谴责罪犯”的舆论叙事框架中,这种“还原罪犯心理过程”的叙事常常受到质疑,他们担心这会形成一种对犯罪的同情。耶莫无奈,只好将那些优质的丑橘贱价卖给街边的摊贩。女儿谓听其母说,失车诚可怖,容貌遂姣姣。余见球员姿势飞跃美好处,忘形呼叫,惜全场无响应,皆以目瞠余。自此不进赛场,至今未识诸种球赛法则,难判是非输赢。余有近视之病,凡入神处,辄侧左。

  • 花钿怎么读(花钿的读音和解释)

    花钿怎么读花钿是古时汉族妇女脸上的一种花饰,即用金翠珠宝制成的花形首饰。[1]花钿有红、绿、黄三种颜色,以红色为最多,以金、银等制成花形,蔽于脸上,是唐代比较流行的一种首饰。花钿的形状除梅花状外,还有各式小鸟、小鱼、小鸭等,十分美妙新颖。花钿的起源可追溯到春秋战国时期,秦汉相继沿用。南朝时寿阳公主发明梅花妆,唐朝时因上官婉儿而再度兴起,并达到鼎盛。五代十国继续盛行,直至宋元时期走向消亡。

  • 正确的使用牙线方法(使用牙线有哪些作用)

    要选择正规厂家所生产的牙线,小孩子和老年人尽量不要使用,因为他们把握不好速度以及力度,容易对牙龈造成一定的损害,属于一次性的用品,千万不能重复性的使用,不然会引起多重感染,甚至会导致炎症。

  • 莲蓬摘下来可以保存几天(莲蓬摘下来可以保存几天呢)

    但冰箱中也只能保存2天,存放过久,会影响其口感。将吃剩下的新鲜莲蓬放在保鲜袋里,然后置于清水中,可以防止水分流失。如果是已去掉莲蓬外壳的带壳莲子,这种情况需要用碗或者盘装起来,表面洒水后再放入冰箱冷藏。想要长时间保存,可提前从莲蓬中取出莲子,外一层绿色保护壳给削去,放入干净的地面进行晒干。

  • 个人办公云盘哪个比较好用点(真有免费不限速的网盘)

    坚果云的许多效率工具,对这一部分工作进行了专门的精简。在web端还支持自动备份,配合坚果云还能找回历史版本,对于码字死机恐惧症患者来说,是福音。而且在线与坚果云备份同步,方便追溯历史版本,减小工作失误带来的损失。加快工作的协同,无疑对效率的提升巨大。对于轻度工作者和学生来说,坚果云免费版提供的空间和流量已经够用。

  • 洒水车什么驾照可以开(洒水车要什么驾照才能开)

    如果是蓝色牌照的洒水车,C1驾照就可以开洒水车。两轮和三轮摩托车、大型客车、从事农业用途的车辆一般是黄牌。另外,营运性质的车辆和摩托车的车牌绝大部分也是黄色的。B2驾照可以驾驶重型、中型载货汽车;大、重、中型专项作业车以及C1、C2、C3、C4、M驾照允许驾驶的车型。据公安部发布的《机动车驾驶证业务工作规范》规定,机动车驾驶证为分级制,共有A1、A2、A3、B1、B2、C1、C2、C3、C4、D、E、F、M、N、P15个级别。

  • 红肉的危害 红肉的危害原理

    2易伤血管饱和脂肪酸是导致动脉硬化的重要原因。3可能致癌红肉被列为2A类致癌物。4致糖尿病有280万、180万和50万例糖尿病可归因于加工肉类、红肉和含糖饮料的摄入量增加。此外,肉类中还含有嘌呤碱,易在体内代谢过程中生成尿酸,易引起痛风、骨发育不良等疾病;过量吃肉,还会降低免疫力。待牛腩将熟时,放入白萝卜片,炖煮后即可食用。锅内加适量水、盐、味精、鸡精,下入乌鸡块、茯苓、当归,小火煲3小时左右即成。

  • 怎样种油茶树才是正确的(按如下方法种植油茶树才是正确的)

    怎样种油茶树才是正确的整地,种植油茶树苗前要先清理林地,将林地中的树干砍除,树根挖掉,将地整理平整,一般是成水平带状的。抚育管理,油茶造林后及时进行抚育管理,保证适合其生存的优越环境,满足油茶树苗生长发育对水肥的要求,施肥措施幼树期以营养生长为主,随树龄大小,施肥量从小到多,逐年提高。雨季要注意排水,夏秋干旱时应及时灌水。