代码先锋网 代码片段及技术文章聚合

特征工程之数据预处理-重复值缺失值及异常值处理

技术标签: 数据挖掘与机器学习  数据处理

#重复值处理
import pandas as pd
data=pd.DataFrame([[1,2,3],[1,2,3],[4,5,6]],columns=['c1','c2','c3'])
data.head()
data[data.duplicated(keep='last')]#可以用duplicated()函数来查询重复的内容
data.duplicated().sum()#统计重复行的数量,可以用sum()函数
data=data.drop_duplicates()#用drop_duplicates()函数删除重复行
data=data.drop_duplicates(subset='c1')#按列进行去重,例如,c1列出现重复的内容,就将重复内容所在的一整行删除
#缺失值处理
import numpy as np
import pandas as pd
data=pd.DataFrame([[1,np.nan,3],[np.nan,2,np.nan],[1,np.nan,0]],columns=['c1','c2','c3'])
data.isnull()#isnull()函数的作用是判断是否是空值,若是空值就赋予True,否则赋予False
data['c1'].isnull()#对单列查看空值
'''对于空值有两种常见的处理方式:删除空值和填补空值'''
#(1)删除
a=data.dropna()#只要含有空值的行都会被删除;也可以设置thresh参数,例如将其设置为n,表示如果一行中的非空值少于n个则删除该行
#(2)填补
b=data.fillna(data.mean())#也可以用data.median()或者空值上方或下方的值来填充

版权声明:本文为gulie8原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/gulie8/article/details/118940875

智能推荐

数据预处理之缺失值&重复值

1 缺失值处理 A B C 0 40.0 88.0 2.0 1 NaN NaN NaN 2 16.0 66.0 4.0 3 22.0 NaN NaN 4 8.0 99.0 NaN 5 44.0 NaN 6.0 <class ‘pandas.core.frame.DataFrame’> RangeIndex: 6 entries, 0 to 5 Data colu...

数据预处理_缺失值

缺失值处理 数据缺失主要包括记录缺失和字段信息缺失等情况,其对数据分析会有较大影响,导致结果不确定性更加显著 缺失值处理 丢弃 → 删除 插补 → 均值、中位数、众数插补 / 临近值插补 / 插值法 不处理 sepal_length_cm sepal_width_cm petal_length_cm petal_width_cm class 0 5.1 3.5 1.4 0.2 ...

07-20 缺失值处理二+ 异常值处理

缺失值处理二 一: 删除法 对于缺失值,一般不会直接进行删除,因为删除过多影响数据分析,所以会对其进行第二中操作,补齐 二: 填补法( 一般适用于 元素 为 float 或者 int的数据) 1. 均值或 中位数 补齐法: 2、众数填补法(适用于 字符型 数据) 在数据分析中,一般对不同的变量,采取不同的填补法 综合应用: 3、前后填补法 四:差值法: 异常值处理、 一、异常的判断 1、均值的两个...

特征工程之数据预处理(下)

机器学习入门系列(2)--如何构建一个完整的机器学习项目,第四篇! 该系列的前三篇文章: 机器学习入门系列(2)--如何构建一个完整的机器学习项目(一) 机器学习数据集的获取和测试集的构建方法 特征工程之数据预处理(上) 上篇文章介绍了如何处理缺失值和图片数据扩充的问题,这篇文章会介绍另外两种情况,处理异常值和类别不平衡的问题。 3.1.3 处理异常值 异常值分析是检验数据是否有录入错误以及含有不...

用spark中DataFrame对数据进行去重、缺失值处理、异常值处理

用spark中DataFrame对数据进行清洗 1. 准备工作 2. 数据去重 3. 缺失值处理 4. 异常值处理 1. 准备工作 配置环境 2. 数据去重 3. 缺失值处理 4. 异常值处理...

猜你喜欢

数据预处理之缺失值处理

数据预处理.1 缺失值处理 删除法 删除小部分样本,在样本量大时(删除部分所占比例小于5%时)可以使用 插补法 —均值插补:分为定距型(插入均值)和非定距型(众数或者中值) —回归插补:线性和非线性回归 —极大似然估计MLE(正态分布为例) 极大似然原理的直观想法我们用下面例子说明,在《权力的游戏》中有个场景,老徒利死的时候,尸体放在穿上,需要弓箭手在岸边发射火...

数据预处理:缺失值的处理

缺失值标志:NaN(no a number) 缺失值的处理:1-删除dropna   2-填充fillna 1-删除  2-填充  ...

[Python数据预处理] 缺失值处理

在训练一个模型之前需要做数据的预处理,因为模型的最终效果决定于数据的质量和数据中蕴含的有用信息的数量。 在实际的模型的训练样本数据中,样本可能会由于某些原因,造成一个或多个值的缺失。可能由于样本采集过程中的失误,或者度量方法对于某些特征不适用,或者数据未被填写等。在表格中缺失值通常是以空值的形式或者是NaN(Not A Number)存在的。如果我们直接忽视这些缺失值可能有些算法无法处理这些缺失值...

数据预处理:处理缺失值

前言 本文参照《利用Python进行数据分析》一书,介绍了对Series和DataFrame对象进行缺失值处理的一些方法 缺失值处理 1. isnull方法 isnull方法用于判断哪些值为缺失值(NaN),并返回布尔值 举例如下: 输出依次为: 值得一提的是,python内建的None值也被当做NaN处理(见data[2][1]) isnull方法并不改变原对象,不信可以试着再输出data试试?...

数据预处理-缺失值处理

@数据预处理 数据预处理简介 模型输入数据质量直接影响建模效果。 原始数据的不一致(来源,计量单位), 噪声数据(采集设备、人工输入的错误), 数据缺失、不完整(问卷不完整、设备故障)等。 在正式构建模型之前往往需要对数据进行恰当的预处理。 缺失值处理:真实的数据往往因为各种原因存在缺失值,需要用删除或填 补来得到一个完整的数据子集。 离群值检测和处理:检测数据集中那些明显偏离数据集中的其他样本,...