Parquet学习与使用之BloomFilter的应用
创始人
2024-05-29 15:50:16
0

写在前面

最近在自己做自定义的OLAP系统,文件格式上用的是Parquet,但是发现Parquet各个API的示例代码很少。所以就打算把这个系列的文章写一下。

1. Parquet的Filter

Parquet的过滤支持两大类,一类是基于Footer中的元数据进行RowGroup级别的过滤;这种过滤能够实现减少IO的目的,它通过元数据里的信息直接可以实现跳过RowGroup的读取。
另一类是对每一行进行过滤,此类对于减少IO没有作用,只是代码优雅一些,不用把所有的数据都读到客户端代码里进行过滤。

2. Parquet对RowGroup的过滤的基本介绍

当前最新版本1.12.x 中支持3类:

  1. 字典 - 如果列的值域空间不大,则用字典(parquet能够自己识别是否使用字典作为一列的过滤器)
  2. statistics - 数值型的min/max
  3. bloomFilter - 如果列值域比较大,则不是相对分段聚合的,则无法用1-2.则考虑用bloomFilter(如果使用bloomFilter需要在写入时指定要使用bloomFilter的列)

3. Parquet 应用BloomFilter的示例代码

3.1 写入Parquet文件

并指定user_id列使用BloomFilter

        ParquetWriter parquetWriter = AvroParquetWriter.builder(path).withSchema(userFlowTraceSchema).withCompressionCodec(CompressionCodecName.GZIP).withBloomFilterEnabled("user_id", true).build();
 

3.2 读取Parquet文件

目前BloomFilter仅支持Eq和In操作;其他类型和自定义的操作都直接被返回了 BLOCK_MIGHT_MATCH(true)- 即不过滤
源码见:org.apache.parquet.filter2.bloomfilterlevel.BloomFilterImpl

读取文件,并使用BloomFilter的示例:

GroupReadSupport readSupport = new GroupReadSupport();
String targetUserId1 = "9639102999811";
String targetUserId2 = "9639102999711";
Filter bloomFilterIn = FilterCompat.get(FilterApi.in(FilterApi.binaryColumn("user_id"),Sets.newHashSet(Binary.fromString(targetUserId1),Binary.fromString(targetUserId2))));
ParquetReader reader = ParquetReader.builder(readSupport, path).withFilter(bloomFilterIn).build();

相关内容

热门资讯

资本界金控(00204.HK)... 格隆汇7月2日丨资本界金控(00204.HK)公告,公司近期与江苏福万代科技信息有限公司("福万代"...
新希望:独立董事彭龙接受纪律审... 转自:财联社【新希望:独立董事彭龙接受纪律审查和监察调查】财联社7月2日电,新希望公告,公司独立董事...
3岁萌娃迷路街头,妈妈急疯!两... 来源:杭州公安 “你好 我在天万街与羊头坝路交叉口的桥上 这边有个小孩子找不到家人一直在哭” 6月2...
中考成绩单|低波策略业绩盘点 (转自:国泰基金微幸福)
华菱钢铁:投资者建议连续三年回... 投资者提问:回购注销是财务手段里提升pb最稳定最可靠最有效的方式,在pb回升到1之前,每年分红可以少...
今年前5个月销量排名前十位轿车... 转自:北京商报北京商报讯(记者 刘晓梦)7月2日,据中国汽车工业协会统计分析,今年前5个月,销量排名...
法国已有2人死于热浪 转自:新华社新华社巴黎7月2日电(记者罗毓)法国商业调频电视台2日上午报道,最近该国遭遇强热浪天气,...
赛意信息(300687.SZ)... 格隆汇7月2日丨赛意信息(300687.SZ)公布,截至2025年6月30日,公司通过股份回购专用证...
比亚迪汽车:海洋网累计销售超5... 7月2日,比亚迪汽车官方微博显示,比亚迪海洋网6月热销196766辆,同比增长24.6%。2025年...
能特科技:拟以3亿元-5亿元回... 格隆汇7月2日|能特科技公告,公司拟使用自有资金及自筹资金,本次回购股份将全部用于注销并相应减少注册...