特征工程之数据预处理-重复值缺失值及异常值处理

#重复值处理
import pandas as pd
data=pd.DataFrame([[1,2,3],[1,2,3],[4,5,6]],columns=['c1','c2','c3'])
data.head()
data[data.duplicated(keep='last')]#可以用duplicated()函数来查询重复的内容
data.duplicated().sum()#统计重复行的数量，可以用sum()函数
data=data.drop_duplicates()#用drop_duplicates()函数删除重复行
data=data.drop_duplicates(subset='c1')#按列进行去重，例如，c1列出现重复的内容，就将重复内容所在的一整行删除

#缺失值处理
import numpy as np
import pandas as pd
data=pd.DataFrame([[1,np.nan,3],[np.nan,2,np.nan],[1,np.nan,0]],columns=['c1','c2','c3'])
data.isnull()#isnull()函数的作用是判断是否是空值，若是空值就赋予True，否则赋予False
data['c1'].isnull()#对单列查看空值
'''对于空值有两种常见的处理方式：删除空值和填补空值'''
#(1)删除
a=data.dropna()#只要含有空值的行都会被删除;也可以设置thresh参数，例如将其设置为n，表示如果一行中的非空值少于n个则删除该行
#(2)填补
b=data.fillna(data.mean())#也可以用data.median()或者空值上方或下方的值来填充

本文链接：https://blog.csdn.net/gulie8/article/details/118940875

智能推荐

数据预处理之缺失值&重复值

1 缺失值处理 A B C 0 40.0 88.0 2.0 1 NaN NaN NaN 2 16.0 66.0 4.0 3 22.0 NaN NaN 4 8.0 99.0 NaN 5 44.0 NaN 6.0 <class ‘pandas.core.frame.DataFrame’> RangeIndex: 6 entries, 0 to 5 Data colu...

数据预处理_缺失值

缺失值处理数据缺失主要包括记录缺失和字段信息缺失等情况，其对数据分析会有较大影响，导致结果不确定性更加显著缺失值处理丢弃 → 删除插补 → 均值、中位数、众数插补 / 临近值插补 / 插值法不处理 sepal_length_cm sepal_width_cm petal_length_cm petal_width_cm class 0 5.1 3.5 1.4 0.2 ...

07-20 缺失值处理二+ 异常值处理

缺失值处理二一：删除法对于缺失值，一般不会直接进行删除，因为删除过多影响数据分析，所以会对其进行第二中操作，补齐二：填补法( 一般适用于元素为 float 或者 int的数据) 1. 均值或中位数补齐法： 2、众数填补法（适用于字符型数据）在数据分析中，一般对不同的变量，采取不同的填补法综合应用： 3、前后填补法四：差值法：异常值处理、一、异常的判断 1、均值的两个...

特征工程之数据预处理（下）

机器学习入门系列（2）--如何构建一个完整的机器学习项目，第四篇！该系列的前三篇文章：机器学习入门系列(2)--如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法特征工程之数据预处理（上）上篇文章介绍了如何处理缺失值和图片数据扩充的问题，这篇文章会介绍另外两种情况，处理异常值和类别不平衡的问题。 3.1.3 处理异常值异常值分析是检验数据是否有录入错误以及含有不...

用spark中DataFrame对数据进行去重、缺失值处理、异常值处理

用spark中DataFrame对数据进行清洗 1. 准备工作 2. 数据去重 3. 缺失值处理 4. 异常值处理 1. 准备工作配置环境 2. 数据去重 3. 缺失值处理 4. 异常值处理...

代码先锋网代码片段及技术文章聚合