Spark DPP
创始人
2024-05-29 21:34:37
0

Spark DPP

  • 分区剪裁
  • 动态分区剪裁

DPP (Dynamic Partition Pruning,动态分区剪裁) : 过滤维度表后,能削减事实表的数据扫描量,提升关联计算的执行性能

分区剪裁

需求 :统计所有头部用户贡献的营业额,并按照营业额倒序排序

select (orders.price * order.quantity) as income, users.name
from orders inner join users on orders.userId = users.id
where users.type = 'Head User'
group by users.name
order by income desc

逻辑计划 :

  • 事实表上没有过滤条件,左侧会全表扫描
  • 维度表上有过滤条件 users.type = 'Head User' ,会用谓词下推,把过滤操作下推到数据源上,减少磁盘 I/O 开销

在这里插入图片描述

当用户表支持分区剪裁(Partition Pruning),I/O 效率的提升就会更加显著

分区剪裁 :谓词下推的特例

  • 在分区表中下推谓词,以文件系统目录为单位对数据集进行过滤

分区表的存储方式:在文件系统中创建单独的子目录来存储相应的数据分片

  • 例子:用户表是分区表,当 type 字段作为分区键,就以 type 值创建子目录

谓词下推/分区剪裁:

  • 不分区时,数据分片都在同个目录下,只能通过 Parquet 在注脚 (Footer) 中 type 字段的统计值,利用谓词下推,减少扫描的数据分片
  • 分区时,分区字段 type 值在不同的子目录,利用分区剪裁,跳过子目录的扫描,从而提升 I/O 效率

在这里插入图片描述

动态分区剪裁

DPP 实现逻辑 :

  1. 对维度表进行 users.type = 'Head User' 条件过滤,再对维度表进行过滤列 id
  2. 根据关联关系 orders.userId = users.id ,把维度表 id 传到事实表的 userId 中
  3. 根据 userId 对事实表过滤,减少数据扫描量,提升 I/O 效率

在这里插入图片描述

利用 DPP 的条件:

  • 事实表必须是分区表,且分区字段 (可多个) 必须包含 Join Key
  • 只支持等值 Joins,不支持大于、小于不等值关联
  • 维度表过滤后的数据集 ,要小于广播阈值

相关内容

热门资讯

小鹿陪玩到五十级大概要花多少钱... 小鹿陪玩到五十级大概要花多少钱?小鹿陪玩到50级大概要花多少钱?那这个问题只有小卢知道,没有人能够知...
博睿数据:计划减持不超过44.... 博睿数据7月6日公告称,公司计划自本公告披露之日起15个交易日后至2025年10月27日,通过集中竞...
政策性收购与市场化收购协同,智...   烈日炎炎,夏粮收购正酣。国家粮食和物资储备局最新数据显示,截至目前,全国累计收购小麦超5000万...
不是人人都能贴!这6种情况贴了... 转自:三门峡发布国家卫生健康委7月5日举行新闻发布会介绍时令节气与健康有关情况。中国中医科学院西苑医...
金砖国家是完善全球治理体系的重... “泰国成为金砖伙伴国,不仅为自身发展带来更多机遇,也将助力东盟提升在全球事务中的影响力。”泰国朱拉隆...
德尔玛:磐茂(上海)投资中心拟... 转自:证券时报人民财讯7月6日电,德尔玛(301332)7月6日晚间公告,公司持股18.96%的股东...
举牌!险资盯上这家行业龙头 来源:@国际金融报微博下半年伊始,险资举牌频现。7月4日,信泰人寿披露公告称,公司通过二级市场集中竞...
芯朋微预计2025年上半年净利... 7月6日,芯朋微(688508)发布公告,预计2025年半年度实现营业收入约为6.3亿元,较上年同期...
“科技永宁·智创未来”科技系列... 央视网消息:2025年7月5日,台州市黄岩区梦创园迎来了一场高规格的科技盛宴,“科技永宁·智创未来”...
智莱科技:股东易明莉拟减持不超... 智莱科技7月6日晚间发布公告称,深圳市智莱科技股份有限公司于近日收到持股5%以上股东易明莉女士出具的...