12描述性统计分析:考试成绩分析 描述性统计分析结果举例解读
lipiwang 2024-10-28 17:25 8 浏览 0 评论
本案例有关说明
- 本案例是分布拟合检验预测、单因素方差分析One-Way ANOVA的基础前导篇。基本概念不在此赘述。
- 本案例分析所用数据为“19财管管理会计成绩.xlsx”。
- 该数据可以在我的百度网盘上下载。
链接:https://pan.baidu.com/s/1ARmBISe_xask-qqaNyaM1A
提取码:qa0f
- 本案例为本人学习笔记,数据及分析结论供学习和教学参考之用。
描述性统计基本认识
描述性统计,是指通过数据计算“统计量”用来描述数据特征的活动。描述性统计分析主要包括以下几个方面的分析:
- 频数分析
- 集中趋势分析
- 离散程度分析
- 数据分布
- 绘制统计图
引入需要使用到的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
这个引入库的动作,是首先要做的。
read_excel()读入待分析数据
df = pd.read_excel('19财管管理会计成绩.xlsx',sheet_name='19财管管理会计')
数据集:"19财管管理会计成绩.xlsx",两列,class为分类变量,glkj为可度量变量。
- class:班级。19财管1—19财管6。分类变量。
- glkj:管理会计,该科目考试成绩。
Descriptive Statistics
# 分组聚合,统计均值、次数、标准差等
stats = df.groupby('class')['glkj'].agg(['mean', 'count', 'std','min','max'])
# 计算0.05水平下的置信区间
ci95_hi = []
ci95_lo = []
co_v = []
for i in stats.index:
m, c, s = stats.loc[i,['mean','count','std']]
ci95_hi.append(m + 1.96 * s/math.sqrt(c))
ci95_lo.append(m - 1.96 * s/math.sqrt(c))
co_v.append(s/m)
stats['ci95_LB'] = ci95_lo
stats['ci95_UB'] = ci95_hi
stats['c.v'] = co_v
统计量stats
- mean:均值
std : 标准差
min/max : 最小/最大值 - median : 中位数
- skew : 偏度
- ci : 置信区间
- c.v : 变异系数
上述“统计量”的基本概念计算方法及计算公式网上讲解很多,在此就不具体列出了,需要的请百度。
统计量如下图所示:
上面图表反映的基本信息
- 管理会计科目成绩平均值都较高,中位数均在90分以上的有四个班,特别是19财管5班均值高达93分,中位数95分。该班成绩离散程度最小,成绩变异程度最小。
- 所有班级管理会计科目成绩分布呈现“左偏”。均值小于中位数。
boxplot & hist:了解大概的分布、发现异常值
# Draw a nested boxplot
df.boxplot(column='glkj', by='class', grid=False)
sns.hist(column='glkj', by='class',figsize=(8,6) ,sharex=True,sharey=True)
sns.despine(offset=10, trim=True)
核密度kde: 了解分布形态
#use sys default settings
ax = sns.distplot(a= df['glkj'])
ax.set(title='19财管管理会计成绩', xlabel='管理会计成绩',ylabel='P')
- Signature:
sns.distplot(a, bins=None, hist=True, kde=True)
该图的成绩分段使用系统默认的设置。结果整体成绩是否为“左偏”?确实是“左偏”。
总体成绩的hist & kde:了解总体分布情况
# set bins
fig,(ax1,ax2)= plt.subplots(1,2,sharex=True, figsize=(7,5))
plt.subplot(1,2,1)
ax1 = sns.distplot(a=df['glkj'], bins=[10, 20, 30, 40, 50, 60, 70, 80, 90,100],
norm_hist= False,hist=True, kde=False,label='管理会计成绩')
ax1.set(title='19财管管理会计成绩',xlabel='管理会计成绩',ylabel='Count')
ax1.legend(loc='best')
#plt.tight_layout(rect=(1, 1, 1, 1)) #设置默认的间距
plt.subplot(1,2,2)
ax2 = sns.distplot(a=df['glkj'], bins=[10, 20, 30, 40, 50, 60, 70, 80, 90,100],
norm_hist= True,hist=True, kde=True,label='管理会计成绩KDE',color='green')
ax2.set(title='19财管管理会计成绩KED',xlabel='管理会计成绩',ylabel='P')
ax2.legend(loc='best')
plt.subplots_adjust(wspace=0.3)
plt.show()
使用pd.cut():自定义分段及频数统计
bins = [0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 101]
labels = ['0-10','10-20','20-30','30-40','40-50','50-60','60-70','70-80','80-90','90+']
- x:需要切分的数据
- bins:切分区域
- right : 是否包含右端点默认True,包含
- labels:对应标签,用标记来代替返回的bins,若不在该序列中,则返回NaN
- retbins:是否返回间距bins
- precision:精度
- include_lowest:是否包含左端点,默认False,不包含
- right : 是否包含右端点默认True,包含。该例为不包括False。[a,b)
df['glkj_bins'] = pd.cut(df['glkj'], bins=bins, labels=labels, include_lowest=True, right=False)
class_count = df.groupby(by= 'class')['glkj_bins'].value_counts()
pd_class_count= pd.DataFrame(class_count)
pd_unstack = pd_class_count.unstack(fill_value=0)
分班级hist、kde:了解各班分布情况
for i in range(6):
fig,(ax1,ax2)= plt.subplots(1,2,sharex=True,figsize=(8,6))
plt.subplot(1,2,1)
ax1 = sns.barplot(count_bins,pd_unstack.values[i],label=pd_unstack.index[i])
ax1.legend(loc='best')
ax1.set(xlabel= '管理会计分段成绩',ylabel= 'Count',title = '管理会计分班级成绩图')
list_n = pd_unstack.values[i]
for j, txt in enumerate(list_n):
ax1.annotate(txt, (j, list_n[j]+0.6),horizontalalignment='center',verticalalignment='center')
plt.subplot(1,2,2)
ax2 = sns.distplot(a=df.loc[df['class']== pd_unstack.index[i]]['glkj'],bins=[10, 20, 30, 40, 50, 60, 70, 80, 90,100],norm_hist= True,hist=True, kde=True,label= pd_unstack.index[i],color='green')
ax2.set(title='管理会计分班级成绩kde',xlabel='管理会计成绩',ylabel='P')
ax2.legend(loc='best')
plt.show()
相关推荐
- 想减少Windows 11内存占用?请取消固定Teams
-
如果你想要提高Windows11系统的运行速度,那么可以禁用某些默认启用的功能和设置。如果你的Windows11是安装在已经停止支持的设备或者内存容量不高的旧设备,那么应该立即限制或禁用固...
- Windows查看端口占用、查看PID对应的进程、并终止进程
-
Windows下:查看端口占用netstat-ano|findstr"端口号"获取到pid查看PID对应的进程tasklist|findstr"进程ID"...
- 计算机组成原理(36): 分时之一——进程
-
建立一个虚拟机VM目标:给每个程序一个自己的虚拟机“VirtualMachine”,程序并不知道其他的虚拟机。1.1进程(Process)为了捕获正在运行的程序,我们创建一个称为“进程(Proce...
- window系统如何停止端口被占用的进程(高手版)
-
如上图1,作为开发人员是不是经常遇到这个问题?(Webserverfailedtostart.Port9527wasalreadyinuse.)当然,如果在你知道确实有某个进程正占...
- 电脑的文件无法删除咋回事?你需要这款神兵利器
-
很多朋友用电脑的时候,都遇到过文件无法删除的情况。这往往是由于文件被某个软件、进程所调用所引发的——在Windows中,某个文件如果被使用,这个文件可能就没法进行删除、重命名之类的操作了。想要进一步操...
- Windows日志分析(windows 日志文件)
-
1.Windows日志文件简介1.1Windows日志核心分类1.系统日志系统日志包含由Windows系统组件记录的事件,记录系统进程和设备驱动程序的活动。由它审核的系统事件包括启动失败的设备驱动程...
- 电脑软件崩溃、闪退不用慌!DJS Tech 教你几招轻松解决
-
当你正全神贯注用电脑处理重要文件、沉浸在精彩的游戏世界,或是观看喜欢的视频时,软件突然崩溃、闪退,那一刻的烦躁简直难以言喻。别着急,DJSTech作为深耕计算机领域多年的专业团队,为你带来一系列超...
- 微软Win11推进淘汰控制面板,时间服务器配置迁移至设置应用
-
IT之家5月29日消息,科技媒体Winaero昨日(5月28日)发布博文,报道称微软在Windows11系统中,继续推进“淘汰控制面板”进程,配置时间服务器地址选项迁移到设置应...
- 微软 PowerToys更新,可帮你找出 Win11上哪些进程正在占用该文件
-
IT之家11月3日消息,微软针对Windows11和Windows10的PowerToys已经更新到了最新的0.64.0版本,并上线了一个名为“文件锁匠FileLock...
- Windows基础操作 认识任务管理器(windows任务管理器的使用)
-
Windows基础操作:认识任务管理器任务管理器(TaskManager)是Windows系统中一个功能强大的实用工具,它为用户提供了实时监控系统资源、管理正在运行的程序和服务的能力。掌握任务管理器...
- windows——netstat过滤(终止进程)
-
windows——netstat过滤(终止进程)在Windows操作系统中,使用netstat命令可以查看网络连接的状态。要过滤特定协议或端口的连接,可以使用以下命令:查看所有连接:netstat-...
- 只要这么做 Windows Defender与第三方就能和平共存啦
-
无论大家是否喜欢WindowsDefender,伴随着Windows10的不断升级,它已经成为系统的底层必备组件之一。虽然我们有各种各样的方法去关闭它,换用顺手的第三方,但只要更新打补丁,噩梦就来...
- Win10如何彻底关闭wsappx进程(win10 wsappx怎么关闭)
-
win10如何彻底关闭wsappx进程?wsappx进程是什么?wsappx进程是Windows10系统的一部分,这个进程是WindowsStore和微软通用应用程序平台(UWP)的依赖进程。...
- Windows环境黑客入侵应急与排查(黑客入侵电脑原理)
-
1文件分析1.1临时目录排查黑客往往可能将病毒放在临时目录(tmp/temp),或者将病毒相关文件释放到临时目录,因此需要检查临时目录是否存在异常文件。假设系统盘在C盘,则通常情况下的临时目录如下...
- Windows 11 24H2 KB5044384出现大面积安装失败、任务管理器0进程等问题
-
Windows11KB5044384更新由于出现大量错误而无法在Windows1124H2上安装、其中包括一个奇怪的错误,即由于0x800f0922、0x800736b3和0x8...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- maven镜像 (69)
- undefined reference to (60)
- zip格式 (63)
- oracle over (62)
- date_format函数用法 (67)
- 在线代理服务器 (60)
- shell 字符串比较 (74)
- x509证书 (61)
- localhost (65)
- java.awt.headless (66)
- syn_sent (64)
- settings.xml (59)
- 弹出窗口 (56)
- applicationcontextaware (72)
- my.cnf (73)
- httpsession (62)
- pkcs7 (62)
- session cookie (63)
- java 生成uuid (58)
- could not initialize class (58)
- beanpropertyrowmapper (58)
- word空格下划线不显示 (73)
- jar文件 (60)
- jsp内置对象 (58)
- makefile编写规则 (58)