大数据分析R语言7种数据可视化方式

it2024-11-03  8

  这篇大数据分析R语言7种数据可视化方式文章介绍了7种基本数据可视化的方式,以及如何结合使用基本R函数和一些常见软件包来重新创建它们。

  数据可视化是一个创新而令人兴奋的领域。尽管它需要很长时间才能在计算机屏幕后进行操作,并且需要掌握数字,但它是一项非常有价值的职业,它处于早期阶段,并且每天都在增长。

  尽管几乎没有专门的程序用于可视化数据,但是许多数据科学家使用一种称为R的编程语言,并且该程序及其许多可用的包为几乎可以想象到的每种情况提供了许多不同形式的可视化。

  以下是7种基本数据可视化的方式,以及如何结合使用基本R函数和一些常用软件包来重新创建它们。所有示例均使用默认R base安装中包含的数据集。

  一、数据可视化方式:条形图

  您可能已经熟悉小学,中学和大学的基本条形图。R中的条形图的概念与过去的方案相同,以显示两个或多个变量之间的分类比较。但是,有几种不同类型的条形图需要了解和理解。

  水平和垂直条形图已经很常见并且很熟悉-它们是大多数学术或专业演讲中的标准格式。但是R提供了一个堆积的条形图,可让您为每个类别引入不同的变量。

  数字<-表格(mtcars $ cyl,mtcars $ gear)

  barplot(Numbers,main = '按汽缸数量分组的汽车汽缸编号',

  col = c('red','orange','steelblue'),legend =行名(数字),xlab = '齿轮数',

  ylab = 'count')

  

 

  二、数据可视化方式:直方图

  直方图在某些学术领域是标准的,但通常保留给最高级别的学生。这些图表最适合R中具有高度精确或准确的数字。

  它最终提供了变量的概率估计,例如,在项目完成之前的时间段。R也为此提供了一个简单的功能。

  #``空气质量''数据集中的臭氧值频率直方图

  hist(空气质量$ Temp,col = 'steelblue',main = '最高每日温度',

  xlab = '温度(华氏度)')

  

 

  三、数据可视化方式:热图

  热图是R中 最创新的数据可视化之一,它强调颜色强度以可视化多个变量之间的关系。

  结果是易于解释的有吸引力的2D图像。作为一个基本示例,热图通过根据竞争产品的原始投放市场日期对其进行排名来突出显示竞争产品的受欢迎程度。它通过提供一段时间内的销售统计数据和数字来进一步细分。

  #模拟10个点的数据集

  x < -rnorm(10,平均值= rep(1 :5,每个= 2),sd = 0.7)

  ÿ < - RNORM(10,平均值=代表(C(1,9),每个= 5),SD = 0.1)

  dataFrame < -data.frame(x = x,y = y)

  set.seed(143)

  DATAMATRIX < - as.matrix(数据帧)的样品(1 :10),] #转换到类“矩阵”,然后洗牌矩阵的行

  热图(数据矩阵)通过热图#形象化分级聚类

  

 

  四、数据可视化方式:散点图

  绘图是图表或图形的一种流行替代方法。它提供了涉及各种点的独特可视化效果。最标准的迭代-散点图-在一段时间内跟踪两个连续变量。散点图的基本应用涉及跟踪多年来儿童的身高和体重。

  当试图避免可视化中的错误信息时,散点图很有用。仅当您确定受众熟悉该类型的图表并且始终谨慎使用时,才使用图表。如有疑问,请选择其他选项之一。

  #仅绘制九月月份的臭氧和温度测量图,

  其中(subset(airquality,Month == 9),plot(Wind,Ozone,col = 'steelblue',pch = 20,cex = 1.5))

  标题(“ 1973年9月纽约市的风和温度”)

  

 

  五、数据可视化方式:箱形图

  该箱线图类似于在许多方面的柱状图。箱形图不再关注分类数据,而是提供分类数据和连续变量数据的可视化。

  在现实世界中,箱形图提供了有关天气模式及其随时间变化的详细信息。

  mtcars < -变换(mtcars,CYL =因子(CYL)) #转换'CYL'从类'数字'类'因子'列

  类(mtcars $ CYL) #'CYL'现在是一个分类变量

  箱线图(MPG 〜 CYL ,mtcars,xlab = '气缸数',ylab = '每加仑英里',

  main = “汽车中不同气缸的每加仑英里数”,cex.main = 1.2)

  library(dplyr)#数据处理

  library(ggplot2)#数据可视化

  库(Corrplot)#相关图

  

 

  六、数据可视化方式:相关图

  相关数据最好通过corrplot可视化。2D格式类似于热图,但突出显示直接相关的统计信息。

  大多数相关图会突出显示各个时间点的数据集之间的相关程度。比较不同月份或年份之间的销售数据是一个基本示例。

  #data(“ mtcars”)

  corr_matrix < -cor(mtcars)

  #带圆圈

  corrplot(corr_matrix)

  #带数字及以下

  corrplot(corr_matrix,

  方法= '数字',

  type = “ lower”)

  

 

  

 

  七、数据可视化方式:面积图

  区域图表示不同变量或数据集之间的连续性。它类似于您从小学就知道的传统折线图,并且以类似的方式使用。

  大多数面积图会突出显示趋势及其随时间的演变,从而在试图揭示潜在趋势(无论是正面还是负面)时非常有效。

  #data(“ airquality”)#使用的数据集

  空气质量%>%

  group_by(Day)%>%

  摘要(mean_wind =平均值(风))%>%

  ggplot()+

  geom_area(aes(x = Day,y = mean_wind))+

  labs(title = “平均面积图每天风”,

  副标题= “使用空气质量数据”,

  y = “平均风”)

  

 

  数据可视化正在进入主流

  研究表明,与单调的电子表格和过时的报告相比,图表,图形和其他可视化提供了一种轻松记住数据的方式。

  不仅在专业领域如此,而且许多学术机构也在学生论文,演示文稿和论文中采用了下一代数据可视化。

  数据可视化似乎几乎没有触及的领域,而且该领域仍处于起步阶段。

 

摘自:https://www.aaa-cg.com.cn/data/2510.html

最新回复(0)