用R语言做数据分析——数据分布的图形描述
lipiwang 2024-10-28 17:25 8 浏览 0 评论
直方图
对于数据分布,常用直方图进行描述,将数据取值的范围分成若干区间(一般是等间距的),在等间距的情况下,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或频率/组距,在高度是频率/组距的情况下,每一矩形的面积是数据落入区间的频率,这种直方图可以估计总体的概率密度。
在R语言总,使用hist()函数画出样本的直方图,其格式为:
其中x是由样本构成的向量,breaks规定直方图的组距,它可以是向量,即给定了直方图的起点、重点与组距;也可以是数字,即定义了直方图的组距。freq是逻辑变量,TRUE表示绘制频率之风那个图,FALSE表示绘制密度直方图。probability的作用与freq相反;col表示直方图中填充的颜色。
> w<-c(75.0,64.0,47.4,66.9,62.2,62.2,58.7,63.5,66.6,64.0,57.0,69.0,56.9,50.0,72.0)
> hist(w)
> hist(w,freq = FALSE)
核密度图
与直方图相配套的是核密度图,其目的是用已知样本,估计其密度,它的使用方法是:
其中x是由样本构成的向量,bw表示宽度,可选择。当bw省略时,R语言会画出光滑的曲线。在前一例子的基础上绘制出核密度估计曲线和概率密度曲线,代码如下:
> lines(density(w),col="blue")
> x<-44:76
> lines(x,dnorm(x,mean(w),sd(w)),col="red")
经验分布图
直方图的制作适合于总体为连续型分布的场合,对于一般的总体分布,若要估计它的总体分布函数F(x),可用经验分布函数做估计,可用函数ecdf()绘制出样本的经验分布函数,其用法是:
其中,在函数ecdf()中的x是由观察值得到的数值型向量,而在函数plot()中的x是由函数ecdf()生成的向量,verticals是逻辑变量,当为TRUE时表示画竖线,否则(FALSE缺省值)不画竖线,下面根据向量w,画出它的经验分布图和对应的正态分布图。
QQ图
不论是直方图还是经验分布图,要从比较上鉴别样本是否近似于某种类型的分布是很困难的,而QQ图可以帮助我们鉴别样本的分布是否近似于某种类型的分布。qqnorm()函数和qqline()函数提供了画正态QQ图和相应直线的方法,其使用方法为:
其中x是第一列样本,y是第二列样本或只有此列样本。下面绘制w的正态QQ图,并从直观上鉴别样本数据是否来自正态分布总体。
> qqnorm(w)
> qqline(w)
茎叶图
与直方图比较,茎叶图更能细致地看出数据分布结构。R语言中使用stem()函数绘制茎叶图,其使用格式为:
stem(x,scale=1,width=2,atom=2)
其中x是数据向量,scale控制绘出茎叶图的长度,width表示宽度,atom表示容差。
>x<-c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,86,87,89,89,89,90,91,91,92,100)
> stem(x)
2 | 5
3 |
4 | 5
5 | 045
6 | 148
7 | 25589
8 | 1344456667999
9 | 0112
10 | 0
第一个数25的十位为2,以个位为单位,将25用“|”分开。每个数都可以这样处理。
在茎叶图中,纵轴为测定数据,横轴为数据频数,数据的十分位表示“茎”,作为纵轴的刻度;个位数作为“叶”,显示频数的个数,作用与直方图类似。
箱线图
茎叶图是探索性数据分析所采用的重要方法,而箱线图却能更直观简洁地展现数据分布的主要特征,R语言使用boxplot()函数画箱线图。例如,绘制出向量x的箱线图:
> boxplot(x)
在箱线图中,上下四分位数分别确定出中间箱体的顶部和底部,箱体中间的粗显示中位数所在位置,上下两条横线表示最大值、最小值,超出此范围的点称为异常值。
箱线图的第二种形式为:
其中formula是公式,如y~grp。y是数值型向量,grps是数据的分组,通常是因子,data是数据结构。
> boxplot(count~spray,data=InsectSprays,col=2:7)
箱线图的第三种形式为:
具体参数在这里不作过多解释,详细可参考R语言的在线帮助文件。
> A<-c(79.98,80.04,80.02,80.04,80.03,80.04,79.97,80.05,80.03,80.02,80.00,80.02)
> B<-c(80.02,79.94,79.98,79.97,80.03,79.95,79.97)
> boxplot(A,B,notch = TRUE,names=c('A','B'),col=c(2,3))
五数总括
在探索性数据分析中,认为最有代表性的、最能反映数据重要特征的五个数:中位数、下四分位数、上四分位数、最小值和最大值。这五个数称为样本数据的五数总括。五数总括可用fivenum()函数计算,使用格式为:
fivenum(x,na.rm=TRUE)
其中,x是样本数据,na.rm是逻辑变量,当为TRUE时,所有的NA和NAN数据将被去掉。
> x<-c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,86,87,89,89,89,90,91,92,100)
> fivenum(x)
[1] 25.0 68.0 83.5 87.0 100.0
相关推荐
- 想减少Windows 11内存占用?请取消固定Teams
-
如果你想要提高Windows11系统的运行速度,那么可以禁用某些默认启用的功能和设置。如果你的Windows11是安装在已经停止支持的设备或者内存容量不高的旧设备,那么应该立即限制或禁用固...
- Windows查看端口占用、查看PID对应的进程、并终止进程
-
Windows下:查看端口占用netstat-ano|findstr"端口号"获取到pid查看PID对应的进程tasklist|findstr"进程ID"...
- 计算机组成原理(36): 分时之一——进程
-
建立一个虚拟机VM目标:给每个程序一个自己的虚拟机“VirtualMachine”,程序并不知道其他的虚拟机。1.1进程(Process)为了捕获正在运行的程序,我们创建一个称为“进程(Proce...
- window系统如何停止端口被占用的进程(高手版)
-
如上图1,作为开发人员是不是经常遇到这个问题?(Webserverfailedtostart.Port9527wasalreadyinuse.)当然,如果在你知道确实有某个进程正占...
- 电脑的文件无法删除咋回事?你需要这款神兵利器
-
很多朋友用电脑的时候,都遇到过文件无法删除的情况。这往往是由于文件被某个软件、进程所调用所引发的——在Windows中,某个文件如果被使用,这个文件可能就没法进行删除、重命名之类的操作了。想要进一步操...
- Windows日志分析(windows 日志文件)
-
1.Windows日志文件简介1.1Windows日志核心分类1.系统日志系统日志包含由Windows系统组件记录的事件,记录系统进程和设备驱动程序的活动。由它审核的系统事件包括启动失败的设备驱动程...
- 电脑软件崩溃、闪退不用慌!DJS Tech 教你几招轻松解决
-
当你正全神贯注用电脑处理重要文件、沉浸在精彩的游戏世界,或是观看喜欢的视频时,软件突然崩溃、闪退,那一刻的烦躁简直难以言喻。别着急,DJSTech作为深耕计算机领域多年的专业团队,为你带来一系列超...
- 微软Win11推进淘汰控制面板,时间服务器配置迁移至设置应用
-
IT之家5月29日消息,科技媒体Winaero昨日(5月28日)发布博文,报道称微软在Windows11系统中,继续推进“淘汰控制面板”进程,配置时间服务器地址选项迁移到设置应...
- 微软 PowerToys更新,可帮你找出 Win11上哪些进程正在占用该文件
-
IT之家11月3日消息,微软针对Windows11和Windows10的PowerToys已经更新到了最新的0.64.0版本,并上线了一个名为“文件锁匠FileLock...
- Windows基础操作 认识任务管理器(windows任务管理器的使用)
-
Windows基础操作:认识任务管理器任务管理器(TaskManager)是Windows系统中一个功能强大的实用工具,它为用户提供了实时监控系统资源、管理正在运行的程序和服务的能力。掌握任务管理器...
- windows——netstat过滤(终止进程)
-
windows——netstat过滤(终止进程)在Windows操作系统中,使用netstat命令可以查看网络连接的状态。要过滤特定协议或端口的连接,可以使用以下命令:查看所有连接:netstat-...
- 只要这么做 Windows Defender与第三方就能和平共存啦
-
无论大家是否喜欢WindowsDefender,伴随着Windows10的不断升级,它已经成为系统的底层必备组件之一。虽然我们有各种各样的方法去关闭它,换用顺手的第三方,但只要更新打补丁,噩梦就来...
- Win10如何彻底关闭wsappx进程(win10 wsappx怎么关闭)
-
win10如何彻底关闭wsappx进程?wsappx进程是什么?wsappx进程是Windows10系统的一部分,这个进程是WindowsStore和微软通用应用程序平台(UWP)的依赖进程。...
- Windows环境黑客入侵应急与排查(黑客入侵电脑原理)
-
1文件分析1.1临时目录排查黑客往往可能将病毒放在临时目录(tmp/temp),或者将病毒相关文件释放到临时目录,因此需要检查临时目录是否存在异常文件。假设系统盘在C盘,则通常情况下的临时目录如下...
- Windows 11 24H2 KB5044384出现大面积安装失败、任务管理器0进程等问题
-
Windows11KB5044384更新由于出现大量错误而无法在Windows1124H2上安装、其中包括一个奇怪的错误,即由于0x800f0922、0x800736b3和0x8...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- maven镜像 (69)
- undefined reference to (60)
- zip格式 (63)
- oracle over (62)
- date_format函数用法 (67)
- 在线代理服务器 (60)
- shell 字符串比较 (74)
- x509证书 (61)
- localhost (65)
- java.awt.headless (66)
- syn_sent (64)
- settings.xml (59)
- 弹出窗口 (56)
- applicationcontextaware (72)
- my.cnf (73)
- httpsession (62)
- pkcs7 (62)
- session cookie (63)
- java 生成uuid (58)
- could not initialize class (58)
- beanpropertyrowmapper (58)
- word空格下划线不显示 (73)
- jar文件 (60)
- jsp内置对象 (58)
- makefile编写规则 (58)