【Python】Pandas通过索引的方式去重df[~df.index.duplicated()]
创始人
2024-03-22 13:11:29
0

1.问题

在处理股票数据的时候,难免遇到去重的问题。对于以下数据,显然2020-01-04的数据重复了。
股票数据中,通常用date当成索引,一行数据的date应该都是唯一的。

import pandas as pddata = pd.DataFrame({'date': ['2020-01-04', '2020-01-04', '2020-01-05', '2020-01-06'], 'open': [102, 102,102, 105], 'close': [102, 102,102, 105]}).set_index('date')
print(data)
            open  close
date                   
2020-01-04   102    102
2020-01-04   102    102
2020-01-05   102    102
2020-01-06   105    105

数据中2020-01-05的open和close与2020-01-04的是一样的,但date又不一样,因此这里不需要对2020-01-05的数据做去重处理的,只需要对2020-01-04的两条数据去重。

如果利用常规的去重方法 df.drop_duplicates(),就会遇到以下问题:

a = data
print(a.drop_duplicates())
            open  close
date                   
2020-01-04   102    102
2020-01-06   105    105

返回的结果相当于把2020-01-05也当重复项做去重处理了。也就是使用 df.drop_duplicates() 方法,是针对于列做去重处理。因为2020-01-05的open和close与2020-01-04的是一样,所以前3条数据被当成重复性处理,就保留了重复数据中的第一条。然而这个结果并不是我们想要的。

正确是做法是对索引去重。

2.解决方法

对索引去重,也只需要用一行代码:df[~df.index.duplicated()]

print(data[~data.index.duplicated()])
            open  close
date                   
2020-01-04   102    102
2020-01-05   102    102
2020-01-06   105    105

这样的结果才是我们想要的。~df.index.duplicated() 方法是只针对索引做去重,而不考虑列数据,与 df.drop_duplicates() 相反。

3.完整代码

import pandas as pddata = pd.DataFrame({'date': ['2020-01-04', '2020-01-04', '2020-01-05', '2020-01-06'], 'open': [102, 102,102, 105], 'close': [102, 102,102, 105]}).set_index('date')
print(data)a = data
print('去重--只匹配列,不匹配索引')
print(a.drop_duplicates())print('去重--只匹配索引,不匹配列')
print(data[~data.index.duplicated()])
E:\Python\Python38-32\python.exe E:/python_project/test.pyopen  close
date                   
2020-01-04   102    102
2020-01-04   102    102
2020-01-05   102    102
2020-01-06   105    105
去重--只匹配列,不匹配索引open  close
date                   
2020-01-04   102    102
2020-01-06   105    105
去重--只匹配索引open  close
date                   
2020-01-04   102    102
2020-01-05   102    102
2020-01-06   105    105Process finished with exit code 0


 

相关内容

热门资讯

评书童林传250回的和300回... 评书童林传250回的和300回的有什么不一样?内容上是完全一样的,只是在剪辑时语速有所不同。 ...
为啥 有声小说凡人修仙传 和 ... 为啥 有声小说凡人修仙传 和 修真世界 很久都不更新了呢? 播音大灰狼去干吗了?凡人修仙传 和 修真...
月宫的主人不是嫦娥,你知道《封... 月宫的主人不是嫦娥,你知道《封神榜》中姜子牙封了谁吗?大家口中所说的嫦娥在历史上,其实并不是一个人,...
华软科技涨1.15%,成交额6... 7月1日,华软科技盘中上涨1.15%,截至09:57,报6.17元/股,成交6068.05万元,换手...
时间久了是不是真的会忘记? 时间久了是不是真的会忘记?如果那时是真的伤到了心,是不会忘记的,只会淡化,再久的时间想起来还是会有一...
菲沃泰涨1.21%,成交额66... 7月1日,菲沃泰盘中上涨1.21%,截至09:58,报16.76元/股,成交662.09万元,换手率...
党员总数超28.77万名 基层... 来源:本站原创  安庆市委组织部最新党内统计数据显示,截至2024年底,安庆市共有中国共产党党员28...
三棵树成立新材料科技子公司 转自:证券时报人民财讯7月1日电,企查查APP显示,近日,三棵树(海南)新材料科技有限公司成立,注册...
正海生物涨1.07%,成交额9... 7月1日,正海生物盘中上涨1.07%,截至09:43,报20.72元/股,成交936.02万元,换手...
奥联电子跌1.01%,成交额1... 7月1日,奥联电子(维权)盘中下跌1.01%,截至09:44,报15.69元/股,成交1018.39...