TOOLS_Pandas groupby 分组聚合常用方法使用示例
创始人
2024-05-29 16:04:37
0

TOOLS_Pandas groupby 分组聚合常用方法使用示例

  • 根据给定列中的不同值对数据点(行)进行分组;
  • 分组后的数据可以计算生成组的聚合值;

注意:下文仅是常用的一些示例,实际操作时可组合使用的方式要多得多

import pandas as pd
df = pd.read_excel("./工作簿1.xlsx")
df.head()
storeproduct_groupproduct_codestock_qtycostpricelast_week_saleslast_month_sales
0VioletPG14187498420.76569.911358
1RosePG24195473545.64712.411658
2VioletPG24204968640.42854.912288
3DaisyPG14219241869.691034.551445
4DaisyPG24718140112.5426.5950285

n列分组n特征列n聚合

# 单列分组——所有数值型特征列——单聚合
df.groupby("store").mean() # 单列分组——单特征列——单聚合
df.groupby("store")["price"].mean() # 多列分组——多特征列——多聚合
df.groupby(["store","product_group"])[["cost","price"]].agg(["mean","max"]) 
costprice
meanmaxmeanmax
storeproduct_group
DaisyPG1869.69869.691034.551034.55
PG212.5412.5426.5926.59
RosePG2545.64545.64712.41712.41
VioletPG1420.76420.76569.91569.91
PG2640.42640.42854.91854.91

对聚合结果进行命名

df.groupby("store").agg(mean_price = ("price", "mean"),max_price = ("price", "max"),mean_cost =  ("cost", "mean"),max_cost = ("cost", "max"),
)
mean_pricemax_pricemean_costmax_cost
store
Daisy530.571034.55441.115869.69
Rose712.41712.41545.640545.64
Violet712.41854.91530.590640.42

as_index 参数

  • 如果groupby输出的是DataFrame,可以使用该参数将分组的列(默认会被处理为索引列)加入到结果的DataFrame中(转换为特征列);
df.groupby("store", as_index=False).agg(mean_price = ("price", "mean"),max_price = ("price", "max"),mean_cost =  ("cost", "mean"),max_cost = ("cost", "max"),
)
storemean_pricemax_pricemean_costmax_cost
0Daisy530.571034.55441.115869.69
1Rose712.41712.41545.640545.64
2Violet712.41854.91530.590640.42

dropna 参数

groupby函数默认会忽略分组的缺省值:如果用于分组的列中缺少值,那么它将不被包含到任何组中,也不会单独显示;

使用dropna参数可以改变这一行为;

df.loc[5] = [None, "PG2", 1000,120,60,90,15,50]
df.groupby("store", dropna=False)["price"].mean()
store
Daisy     530.57
Rose      712.41
Violet    712.41
NaN        90.00
Name: price, dtype: float64

排序输出

  • 使用sort_values函数根据聚合列多输出进行排序
df.groupby("store", as_index=False).agg(mean_price = ("price", "mean"),max_price = ("price", "max"),mean_cost =  ("cost", "mean"),max_cost = ("cost", "max"),
).sort_values(by="mean_price", ascending=False)
storemean_pricemax_pricemean_costmax_cost
1Rose712.41712.41545.640545.64
2Violet712.41854.91530.590640.42
0Daisy530.571034.55441.115869.69

某一列的Top N

  • max() 取最大值
  • nlargest(N)nsmallest(N) 取前N个最值
df.groupby("store")["price"].max()
df.groupby("store")["price"].nlargest(2)
store    
Daisy   3    1034.554      26.59
Rose    1     712.41
Violet  2     854.910     569.91
Name: price, dtype: float64

第N个值

  • 先排序,再取值
df_sorted = df.sort_values(by=["store","price"], ascending=False, ignore_index=True)
# ignore_index参数,会重置索引# 找到每个分组中的第一个值(按照price倒序,对应的就是每组中price最高的一条记录)
df_sorted.groupby("store", as_index=False).nth(0)# 找到每个分组中的最后一个值(按照price倒序,对应的就是每组中price最低的一条记录)
df_sorted.groupby("store", as_index=False).nth(-1)
storeproduct_groupproduct_codestock_qtycostpricelast_week_saleslast_month_sales
1VioletPG14187498420.76569.911358
2RosePG24195473545.64712.411658
4DaisyPG24718140112.5426.5950285

唯一值、唯一值的数量

  • unique函数 查找每组中的唯一值
  • nunique函数 统计每组中唯一值的数量
df.groupby("store", as_index=False).agg(unique_val = ("product_code", "unique")
)
storeunique_val
0Daisy[4219, 4718]
1Rose[4195]
2Violet[4187, 4204]
df.groupby("store", as_index=False).agg(number_unique_val = ("product_code", "nunique")
)
storenumber_unique_val
0Daisy2
1Rose1
2Violet2

组的个数

# 两列的组合数
df.groupby(["store", "product_group"]).ngroups
5

获取特定分组

asign_pg1 = df.groupby(["store", "product_group"]
).get_group(("Daisy", "PG1"))asign_pg1
storeproduct_groupproduct_codestock_qtycostpricelast_week_saleslast_month_sales
3DaisyPG14219241869.691034.551445

Lambda

  • 在agg函数中使用lambda表达式,自定义聚合操作
df.groupby("store").agg(test_p = ("price", lambda x: round(x.sum()/1000, 1))
)
test_p
store
Daisy1.1
Rose0.7
Violet1.4

apply函数

  • 使用apply函数将Lambda表达式应用到每个组。
  • 例如,我们可以计算每家店利润值;
df.groupby("store").apply(lambda x: (x.price - x.cost).sum()
)
store
Daisy     178.91
Rose      166.77
Violet    363.64
dtype: float64

expanding 函数

import numpy as npdf = pd.DataFrame({"date": pd.date_range(start="2022-08-01", periods=8, freq="D"),"category": list("AAAABBBB"),"value": np.random.randint(10, 30, size=8)}
)
df
datecategoryvalue
02022-08-01A26
12022-08-02A25
22022-08-03A29
32022-08-04A10
42022-08-05B25
52022-08-06B18
62022-08-07B24
72022-08-08B15
# 累计总和
df["cum_sum"] = df.groupby("category")["value"].cumsum()
df
datecategoryvaluecum_sum
02022-08-01A2626
12022-08-02A2551
22022-08-03A2980
32022-08-04A1090
42022-08-05B2525
52022-08-06B1843
62022-08-07B2467
72022-08-08B1582
# expanding函数提供展开转换。但是对于展开以后的操作还是需要一个累计函数来堆区操作
df["cum_sum2"] = df.groupby("category")["value"].expanding().sum().values
df
datecategoryvaluecum_sumcum_sum2
02022-08-01A262626.0
12022-08-02A255151.0
22022-08-03A298080.0
32022-08-04A109090.0
42022-08-05B252525.0
52022-08-06B184343.0
62022-08-07B246767.0
72022-08-08B158282.0

相关内容

热门资讯

华富成长企业精选股票基金财报解... 华富成长企业精选股票型证券投资基金2024年年报已发布,各项关键数据变动值得投资者关注。报告期内,该...
滚动更新丨美股三大期指跌势不止... 18:53 美股三大期指跌势不止,道指期货、纳斯达克100指数期货、标普500指数期货均跌超3%。其...
【我们的节日·清明(新绿)】追... 转自:荔枝新闻在雨花台烈士纪念馆内展陈着一张冷少农烈士亲属的合照。在照片后排,冷少农的儿媳怀抱着一位...
2025年电动汽车百人会启示:... 转自:上观新闻日前,中国电动汽车百人会论坛(2025)在北京钓鱼台国宾馆举行。作为全球新能源汽车领域...
河北3市最新任免!区长、副县长... 石家庄石家庄市桥西区第十七届人民代表大会第六次会议公告石家庄市桥西区第十七届人民代表大会第六次会议于...
商务部:中方敦促美方取消单边关... 来源:人民网 人民网北京4月4日电 (记者孙阳)据商务部消息,美东时间4月2日,美方宣布对包括中国在...
【地评线】荔枝网评:清明祭英烈... 特约评论员/刘连福青柳吐新,纸灰化蝶,又是一年清明至。这个绵延2500余年的传统节日,既承载着“墓前...
江苏扬州政府大院清明假期继续敞... 中新网扬州4月4日电 (朱晓颖 崔佳明)为了让游客出行更加便利,清明假期,江苏扬州市政府大院继续“开...
知名女演员官宣:捐赠全部资产! 71岁的中国香港资深演员陈喜莲近日宣布将其全部资产捐赠给慈善机构这位曾在20世纪80年代与周润发搭档...
民革党员忆台湾“寻亲”之旅:缅... 来源:中国新闻网 中新网杭州4月4日电 (郭其钰)青山处处埋忠骨,时至清明寄哀思。清明节之际,浙江杭...
AUDI 首款概念车 亮相上汽... 转自:上观新闻近日,豪华电动品牌AUDI首款概念车AUDI E惊喜亮相位于上海静安的上汽奥迪进取汇,...
商务部就中方在世贸组织起诉美“... 转自:商务部网站4月4日,商务部新闻发言人就中方在世贸组织起诉美“对等关税”措施答记者问。问:据悉,...
可能是利川籍!在韩中国人民志愿... 转自:恩施发布让英魂归故里,让更多志愿军烈士回到祖国、找到亲人,是全社会的共同心愿!为此,退役军人事...
以军在加沙地带北部开展地面行动 新华社耶路撒冷4月4日电(记者陈君清 王卓伦)以色列国防军4日说,以军当天开始在加沙地带北部的舒加艾...
大调整!“国泰君安”官宣! 本报记者 罗辑 北京报道4月3日晚间,国泰君安正式更名国泰海通后,发布首份公告“官宣”了新一届领导班...
上海的这些农村基层一线书记们,... 转自:上观新闻实施乡村振兴战略、推进城乡融合发展走在前列,走出一条超大城市城乡融合发展的新路子,是上...
【地评线】新华时论︱相信中国就... 春日的中国,绿意盎然。习近平主席在会见国际工商界代表时的话语掷地有声:“中国推进改革开放坚定不移,开...
中方宣布对美国所有进口商品加税 【#中方宣布对美国所有进口商品加税#】#对原产美国所有进口商品加征34%关税##中国出手反制美国# ...
11箭齐发!中方坚决反制美“对... 美东时间4月2日,美方宣布对所有贸易伙伴征收“对等关税”。中方对此坚决反对,并表示将坚决采取反制措施...
中国14颗卫星驰援缅甸!为何天... 转自:北京日报客户端3月28日缅甸突发7.9级地震,造成重大人员伤亡和财产损失,日前中国的救援队伍已...