百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

干货分享 | 推荐一个更高效的数据清洗方法,建议收藏

lipiwang 2024-10-28 17:25 8 浏览 0 评论

作者:俊欣

来源:关于数据分析与可视化

今天来分享一个高效率的数据清洗的方法,毕竟我们平常在工作和生活当中经常会遇到需要去处理杂七杂八的数据集,有一些数据集中有缺失值、有些数据集中有极值、重复值等等。这次用到的数据集样本在文末有获取的办法。

01、导入库和读取数据

我们首先导入所需要用到的库,并且读取数据

import pandas as pd
import numpy as np


df = pd.read_csv("DirectMarketing.csv")

我们先来大致地看一下数据集中各个特征值的情况,通过info()这个方法

df.info()

02、去除掉缺失值和重复值

我们看到上面的“History”这一列,只有697条数据不是空值,那就意味着还有另外3条数据是空值,与之对应的方式有将含有缺失值的数据删掉,或者将缺失值的部分替换为是中位数或者是平均数,

# 将缺失值给移除掉
df.dropna(axis = 0, inplace = True)

要是数据集中存在大量的缺失值,只是简简单单地移除掉怕是会影响到数据的完整性,如果是数值类型的特征值,就用用平均值或者是中位数来替换,如果是离散类型的缺失值,就用众数来替换

def fill_missing_values_num(df, col_name):
    val = df[col_name].median()
    df[col_name].fillna(val, inplace = True)
    return df
def fill_missing_values_cate(df, col_name):
    val = df[col_name].value_counts().index.tolist()[0]
    df[col_name].fillna(val, inplace = True)
    return df

而可能存在重复值的部分,pandas当中有drop_ducplicates()方法来进行处理

df.drop_duplicates(inplace = True)

最后我们封装成一个函数,对于缺失值的处理小编这里选择用中位数填充的方式来处理

def fill_missing_values_and_drop_duplicates(df, col_name):
    val = df[col_name].value_counts().index.tolist()[0]
    df[col_name].fillna(val, inplace = True)
    return df.drop_duplicates()

03、数据类型的转换

经常使用pandas的人可能都有这种体验,它经常会将数据集中的变量类型直接变成object,这里我们可以直接使用“convert_dtypes”来进行批量的转换,它会自动推断数据原来的类型,并实现转换,并且打印出来里面各列的数据类型,封装成一个函数

def convert_dtypes(df):
    print(df.dtypes)
    return df.convert_dtypes()

04、极值的检测

对于极值的检测有多种方式,例如我们可以通过箱型图的方式来查看

sample = [11, 500, 20, 24, 400, 25, 10, 21, 13, 8, 15, 10]
plt.boxplot(sample, vert=False)
plt.title("箱型图来检测异常值",fontproperties="SimHei")
plt.xlabel('样本数据',fontproperties="SimHei")

我们可以通过箱型图来明显的看出当中有两个异常值,也就是400500这两个,箱型图由最大值、上四分位数(Q3)、中位数(Q2)、下四分位数和最小值五个统计量组成,其中Q1和Q3之间的间距称为是四分位间距(interquartile range,IQR),而通常若是样本中的数据大于Q3+1.5IQR小于Q1-1.5IQR定义为异常值

当然了除此之外,还可以通过z-score的方法来检测,Z-score是以标准差为单位去度量某个数据偏离平均数的距离,计算公式为

我们用python来实现一下当中的步骤

outliers = []
def detect_outliers_zscore(data, threshold):
    mean = np.mean(data)
    std = np.std(data)
    for i in data:
        z_score = (i-mean)/std
        if (np.abs(z_score) > threshold):
            outliers.append(i)
    return outliers# Driver code

而对待异常值的方式,首先最直接的就是将异常值给去掉,我们检测到异常值所在的行数,然后删掉该行,当然当数据集当中的异常值数量很多的时候,移除掉必然会影响数据集的完整性,从而影响建模最后的效果

def remove_outliers1(df, col_name):
    low = np.quantile(df[col_name], 0.05)
    high = np.quantile(df[col_name], 0.95)
    return df[df[col_name].between(low, high, inclusive=True)]

其次我们可以将异常值替换成其他的值,例如上面箱型图提到的上四分位数或者是下四分位数

def remove_outliers2(df, col_name):
    low_num = np.quantile(df[col_name], 0.05)
    high_num = np.quantile(df[col_name], 0.95)
    df.loc[df[col_name] > high_num, col_name] = high_num 
    df.loc[df[col_name] < low_num , col_name] = low_num
    return df

因此回到上面用到的样本数据集,我们将之前数据清洗的函数统统整合起来,用pipe()的方法来串联起来,形成一个数据清洗的标准模板

def fill_missing_values_and_drop_duplicates(df, col_name):
    val = df[col_name].value_counts().index.tolist()[0]
    df[col_name].fillna(val, inplace = True)
    return df.drop_duplicates()
    
 def remove_outliers2(df, col_name):
    low_num = np.quantile(df[col_name], 0.05)
    high_num = np.quantile(df[col_name], 0.95)
    df.loc[df[col_name] > float(high_num), col_name] = high_num 
    return df
    
def convert_dtypes(df):
    print(df.dtypes)
    return df.convert_dtypes()
  
df_cleaned = (df.pipe(fill_missing_values_and_drop_duplicates, 'History').
                pipe(remove_outliers2, 'Salary').
                pipe(convert_dtypes))

06、写在最后

所以我们之后再数据清洗的过程当中,可以将这种程序化的清洗步骤封装成一个个函数,然后用pipe()串联起来,用在每一个数据分析的项目当中,更快地提高我们工作和分析的效率。

相关推荐

想减少Windows 11内存占用?请取消固定Teams

如果你想要提高Windows11系统的运行速度,那么可以禁用某些默认启用的功能和设置。如果你的Windows11是安装在已经停止支持的设备或者内存容量不高的旧设备,那么应该立即限制或禁用固...

Windows查看端口占用、查看PID对应的进程、并终止进程

Windows下:查看端口占用netstat-ano|findstr"端口号"获取到pid查看PID对应的进程tasklist|findstr"进程ID"...

计算机组成原理(36): 分时之一——进程

建立一个虚拟机VM目标:给每个程序一个自己的虚拟机“VirtualMachine”,程序并不知道其他的虚拟机。1.1进程(Process)为了捕获正在运行的程序,我们创建一个称为“进程(Proce...

window系统如何停止端口被占用的进程(高手版)

如上图1,作为开发人员是不是经常遇到这个问题?(Webserverfailedtostart.Port9527wasalreadyinuse.)当然,如果在你知道确实有某个进程正占...

电脑的文件无法删除咋回事?你需要这款神兵利器

很多朋友用电脑的时候,都遇到过文件无法删除的情况。这往往是由于文件被某个软件、进程所调用所引发的——在Windows中,某个文件如果被使用,这个文件可能就没法进行删除、重命名之类的操作了。想要进一步操...

Windows日志分析(windows 日志文件)

1.Windows日志文件简介1.1Windows日志核心分类1.系统日志系统日志包含由Windows系统组件记录的事件,记录系统进程和设备驱动程序的活动。由它审核的系统事件包括启动失败的设备驱动程...

电脑软件崩溃、闪退不用慌!DJS Tech 教你几招轻松解决

当你正全神贯注用电脑处理重要文件、沉浸在精彩的游戏世界,或是观看喜欢的视频时,软件突然崩溃、闪退,那一刻的烦躁简直难以言喻。别着急,DJSTech作为深耕计算机领域多年的专业团队,为你带来一系列超...

微软Win11推进淘汰控制面板,时间服务器配置迁移至设置应用

IT之家5月29日消息,科技媒体Winaero昨日(5月28日)发布博文,报道称微软在Windows11系统中,继续推进“淘汰控制面板”进程,配置时间服务器地址选项迁移到设置应...

微软 PowerToys更新,可帮你找出 Win11上哪些进程正在占用该文件

IT之家11月3日消息,微软针对Windows11和Windows10的PowerToys已经更新到了最新的0.64.0版本,并上线了一个名为“文件锁匠FileLock...

Windows基础操作 认识任务管理器(windows任务管理器的使用)

Windows基础操作:认识任务管理器任务管理器(TaskManager)是Windows系统中一个功能强大的实用工具,它为用户提供了实时监控系统资源、管理正在运行的程序和服务的能力。掌握任务管理器...

windows——netstat过滤(终止进程)

windows——netstat过滤(终止进程)在Windows操作系统中,使用netstat命令可以查看网络连接的状态。要过滤特定协议或端口的连接,可以使用以下命令:查看所有连接:netstat-...

只要这么做 Windows Defender与第三方就能和平共存啦

无论大家是否喜欢WindowsDefender,伴随着Windows10的不断升级,它已经成为系统的底层必备组件之一。虽然我们有各种各样的方法去关闭它,换用顺手的第三方,但只要更新打补丁,噩梦就来...

Win10如何彻底关闭wsappx进程(win10 wsappx怎么关闭)

win10如何彻底关闭wsappx进程?wsappx进程是什么?wsappx进程是Windows10系统的一部分,这个进程是WindowsStore和微软通用应用程序平台(UWP)的依赖进程。...

Windows环境黑客入侵应急与排查(黑客入侵电脑原理)

1文件分析1.1临时目录排查黑客往往可能将病毒放在临时目录(tmp/temp),或者将病毒相关文件释放到临时目录,因此需要检查临时目录是否存在异常文件。假设系统盘在C盘,则通常情况下的临时目录如下...

Windows 11 24H2 KB5044384出现大面积安装失败、任务管理器0进程等问题

Windows11KB5044384更新由于出现大量错误而无法在Windows1124H2上安装、其中包括一个奇怪的错误,即由于0x800f0922、0x800736b3和0x8...

取消回复欢迎 发表评论: