数据可视化:解析小提琴图(Violin plots)
lipiwang 2024-10-28 17:24 9 浏览 0 评论
小提琴图(Violin plots)是一种数据可视化类型,结合了箱线图( box plot )和核密度图( kernel density plot)的特点。它展示了数据在不同类别或分组中的分布情况。在小提琴图中,每个组的分布由一个核密度图表示,镜像和旋转以形成类似小提琴的对称形状。小提琴图在任何给定点的宽度对应于该值的数据密度。此外,通常在小提琴图上叠加一个箱线图,提供摘要统计信息,如中位数、四分位数和异常值。小提琴图可用于比较不同组之间的分布,并识别它们的形状和扩展之间的差异。
Python 中的实现
标准正态分布(Standard Normal distribution)
代码生成了一个展示标准正态分布数据样本的直方图、箱线图和小提琴图的图形。首先,从标准正态分布中生成了一组具有10^4个样本的数据。然后,使用matplotlib和seaborn库创建了一个包含3个子图的图形。第一个子图显示了数据样本的直方图和核密度估计图(KDE),第二个子图显示了数据样本的箱线图,第三个子图显示了数据样本的小提琴图。标题标注了每个子图中显示的图形类型以及整个图形的主标题是"标准正态分布"。
import matplotlib.pyplot as plt
import seaborn as sns
N = 10 ** 4
np.random.seed(2024)
sample_gaussian = np.random.normal(size=N)
fig, ax = plt.subplots(3, 1, sharex=True)
sns.distplot(sample_gaussian, ax=ax[0])
ax[0].set_title('Histogram + KDE')
sns.boxplot(sample_gaussian, ax=ax[1])
ax[1].set_title('Boxplot')
sns.violinplot(sample_gaussian, ax=ax[2])
ax[2].set_title('Violin plot')
fig.suptitle('Standard Normal Distribution', fontsize=16)
plt.show()
可以得出一些观察结果:
- 在直方图中,我们看到了分布的对称形状。
- 在箱线图和小提琴图中,我们可以看到之前提到的指标(中位数、四分位距、图基的栅栏)。
- 用于创建小提琴图的核密度图与添加在直方图上方的核密度图相同。小提琴图中较宽的部分代表观察值取特定值的概率较高,而较窄的部分对应着概率较低的情况。
将这三种图形放在一起展示可以很好地解释小提琴图的本质以及它包含的信息类型。
对数正态分布(Log-normal distribution)
接下来是对数正态分布的示例,这种分布明显比正态分布更倾斜。
import matplotlib.pyplot as plt
import seaborn as sns
N = 10 ** 4
np.random.seed(2024)
sample_lognormal = np.random.lognormal(size=N)
fig, ax = plt.subplots(3, 1, sharex=True)
sns.distplot(sample_lognormal, ax=ax[0])
ax[0].set_title('Histogram + KDE')
sns.boxplot(sample_lognormal, ax=ax[1])
ax[1].set_title('Boxplot')
sns.violinplot(sample_lognormal, ax=ax[2])
ax[2].set_title('Violin plot')
fig.suptitle('Log-normal Distribution', fontsize=16)
plt.show()
混合高斯分布 — 双峰(Mixture of Gaussians — bimodal)
在前两个例子中,我们已经看到小提琴图比箱线图包含更多信息。当我们考虑多峰分布时,这一点变得更加明显。在这个例子中,我们创建一个双峰分布,作为两个高斯分布的混合。
import matplotlib.pyplot as plt
import seaborn as sns
N = 10 ** 4
np.random.seed(2024)
sample_bimodal = np.concatenate([np.random.normal(loc=-2, scale=2, size=int(N/2)),
np.random.normal(loc=3, scale=1, size=int(N/2))])
fig, ax = plt.subplots(3, 1, sharex=True)
sns.distplot(sample_bimodal, ax=ax[0])
ax[0].set_title('Histogram + KDE')
sns.boxplot(sample_bimodal, ax=ax[1])
ax[1].set_title('Boxplot')
sns.violinplot(sample_bimodal, ax=ax[2])
ax[2].set_title('Violin plot')
fig.suptitle('Mixture of Gaussians - bimodal', fontsize=16)
plt.show()
没有密度图,我们将无法发现数据中的两个峰值。
高级用法
小提琴图经常用于比较某个变量在不同类别间的分布。我们以下列出了一些可能性。为此,我们从seaborn加载了小费(tips)数据集。
import seaborn as sns
#tips = sns.load_dataset("tips",cache=False)
tips = pd.read_csv('tips.csv')
tips
下面的示例:按性别分组的小费分布。此外,我们改变了小提琴图的结构,仅显示四分位数。其他一些可能性包括点表示所有观测值,或者箱形图表示在小提琴图内绘制一个小箱形图。
ax = sns.violinplot(x="sex", y="tip", inner='quartile', data=tips)
ax.set_title('Distribution of tips', fontsize=16);
下面示例:每天的总账单金额分布。此外,我们按性别进行了分组。立即可以看到,性别之间分布形状的最大差异发生在星期五。
ax = sns.violinplot(x="day", y="total_bill", hue="sex", data=tips)
ax.set_title('Distribution of total bill amount per day', fontsize=16)
在最后一个示例中,我们调查了与前一个案例相同的内容,但是我们设置了split=True。这样做的话,我们不是得到了8个小提琴图,而是得到了四个 —— 每个小提琴图的一侧对应着不同的性别。
ax = sns.violinplot(x="day", y="total_bill", hue="sex", split=True, data=tips)
ax.set_title('Distribution of total bill amount per day', fontsize=16);
主要介绍了什么是小提琴图,如何解释它们以及它们相对于箱线图的优势。值得一提的是,只要四分位数保持不变,箱线图就不会适应变化。我们可以以一种方式修改数据,使四分位数保持不变,但分布的形状却发生了明显的变化。以下 GIF 动画说明了这一点。
source:Same Stats, Different Graphs(https://www.research.autodesk.com/publications/same-stats-different-graphs/)
相关推荐
- 想减少Windows 11内存占用?请取消固定Teams
-
如果你想要提高Windows11系统的运行速度,那么可以禁用某些默认启用的功能和设置。如果你的Windows11是安装在已经停止支持的设备或者内存容量不高的旧设备,那么应该立即限制或禁用固...
- Windows查看端口占用、查看PID对应的进程、并终止进程
-
Windows下:查看端口占用netstat-ano|findstr"端口号"获取到pid查看PID对应的进程tasklist|findstr"进程ID"...
- 计算机组成原理(36): 分时之一——进程
-
建立一个虚拟机VM目标:给每个程序一个自己的虚拟机“VirtualMachine”,程序并不知道其他的虚拟机。1.1进程(Process)为了捕获正在运行的程序,我们创建一个称为“进程(Proce...
- window系统如何停止端口被占用的进程(高手版)
-
如上图1,作为开发人员是不是经常遇到这个问题?(Webserverfailedtostart.Port9527wasalreadyinuse.)当然,如果在你知道确实有某个进程正占...
- 电脑的文件无法删除咋回事?你需要这款神兵利器
-
很多朋友用电脑的时候,都遇到过文件无法删除的情况。这往往是由于文件被某个软件、进程所调用所引发的——在Windows中,某个文件如果被使用,这个文件可能就没法进行删除、重命名之类的操作了。想要进一步操...
- Windows日志分析(windows 日志文件)
-
1.Windows日志文件简介1.1Windows日志核心分类1.系统日志系统日志包含由Windows系统组件记录的事件,记录系统进程和设备驱动程序的活动。由它审核的系统事件包括启动失败的设备驱动程...
- 电脑软件崩溃、闪退不用慌!DJS Tech 教你几招轻松解决
-
当你正全神贯注用电脑处理重要文件、沉浸在精彩的游戏世界,或是观看喜欢的视频时,软件突然崩溃、闪退,那一刻的烦躁简直难以言喻。别着急,DJSTech作为深耕计算机领域多年的专业团队,为你带来一系列超...
- 微软Win11推进淘汰控制面板,时间服务器配置迁移至设置应用
-
IT之家5月29日消息,科技媒体Winaero昨日(5月28日)发布博文,报道称微软在Windows11系统中,继续推进“淘汰控制面板”进程,配置时间服务器地址选项迁移到设置应...
- 微软 PowerToys更新,可帮你找出 Win11上哪些进程正在占用该文件
-
IT之家11月3日消息,微软针对Windows11和Windows10的PowerToys已经更新到了最新的0.64.0版本,并上线了一个名为“文件锁匠FileLock...
- Windows基础操作 认识任务管理器(windows任务管理器的使用)
-
Windows基础操作:认识任务管理器任务管理器(TaskManager)是Windows系统中一个功能强大的实用工具,它为用户提供了实时监控系统资源、管理正在运行的程序和服务的能力。掌握任务管理器...
- windows——netstat过滤(终止进程)
-
windows——netstat过滤(终止进程)在Windows操作系统中,使用netstat命令可以查看网络连接的状态。要过滤特定协议或端口的连接,可以使用以下命令:查看所有连接:netstat-...
- 只要这么做 Windows Defender与第三方就能和平共存啦
-
无论大家是否喜欢WindowsDefender,伴随着Windows10的不断升级,它已经成为系统的底层必备组件之一。虽然我们有各种各样的方法去关闭它,换用顺手的第三方,但只要更新打补丁,噩梦就来...
- Win10如何彻底关闭wsappx进程(win10 wsappx怎么关闭)
-
win10如何彻底关闭wsappx进程?wsappx进程是什么?wsappx进程是Windows10系统的一部分,这个进程是WindowsStore和微软通用应用程序平台(UWP)的依赖进程。...
- Windows环境黑客入侵应急与排查(黑客入侵电脑原理)
-
1文件分析1.1临时目录排查黑客往往可能将病毒放在临时目录(tmp/temp),或者将病毒相关文件释放到临时目录,因此需要检查临时目录是否存在异常文件。假设系统盘在C盘,则通常情况下的临时目录如下...
- Windows 11 24H2 KB5044384出现大面积安装失败、任务管理器0进程等问题
-
Windows11KB5044384更新由于出现大量错误而无法在Windows1124H2上安装、其中包括一个奇怪的错误,即由于0x800f0922、0x800736b3和0x8...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- maven镜像 (69)
- undefined reference to (60)
- zip格式 (63)
- oracle over (62)
- date_format函数用法 (67)
- 在线代理服务器 (60)
- shell 字符串比较 (74)
- x509证书 (61)
- localhost (65)
- java.awt.headless (66)
- syn_sent (64)
- settings.xml (59)
- 弹出窗口 (56)
- applicationcontextaware (72)
- my.cnf (73)
- httpsession (62)
- pkcs7 (62)
- session cookie (63)
- java 生成uuid (58)
- could not initialize class (58)
- beanpropertyrowmapper (58)
- word空格下划线不显示 (73)
- jar文件 (60)
- jsp内置对象 (58)
- makefile编写规则 (58)