Parquet学习与使用之BloomFilter的应用
创始人
2024-05-29 15:50:16

写在前面

最近在自己做自定义的OLAP系统,文件格式上用的是Parquet,但是发现Parquet各个API的示例代码很少。所以就打算把这个系列的文章写一下。

1. Parquet的Filter

Parquet的过滤支持两大类,一类是基于Footer中的元数据进行RowGroup级别的过滤;这种过滤能够实现减少IO的目的,它通过元数据里的信息直接可以实现跳过RowGroup的读取。
另一类是对每一行进行过滤,此类对于减少IO没有作用,只是代码优雅一些,不用把所有的数据都读到客户端代码里进行过滤。

2. Parquet对RowGroup的过滤的基本介绍

当前最新版本1.12.x 中支持3类:

  1. 字典 - 如果列的值域空间不大,则用字典(parquet能够自己识别是否使用字典作为一列的过滤器)
  2. statistics - 数值型的min/max
  3. bloomFilter - 如果列值域比较大,则不是相对分段聚合的,则无法用1-2.则考虑用bloomFilter(如果使用bloomFilter需要在写入时指定要使用bloomFilter的列)

3. Parquet 应用BloomFilter的示例代码

3.1 写入Parquet文件

并指定user_id列使用BloomFilter

        ParquetWriter parquetWriter = AvroParquetWriter.builder(path).withSchema(userFlowTraceSchema).withCompressionCodec(CompressionCodecName.GZIP).withBloomFilterEnabled("user_id", true).build();
 

3.2 读取Parquet文件

目前BloomFilter仅支持Eq和In操作;其他类型和自定义的操作都直接被返回了 BLOCK_MIGHT_MATCH(true)- 即不过滤
源码见:org.apache.parquet.filter2.bloomfilterlevel.BloomFilterImpl

读取文件,并使用BloomFilter的示例:

GroupReadSupport readSupport = new GroupReadSupport();
String targetUserId1 = "9639102999811";
String targetUserId2 = "9639102999711";
Filter bloomFilterIn = FilterCompat.get(FilterApi.in(FilterApi.binaryColumn("user_id"),Sets.newHashSet(Binary.fromString(targetUserId1),Binary.fromString(targetUserId2))));
ParquetReader reader = ParquetReader.builder(readSupport, path).withFilter(bloomFilterIn).build();

相关内容

热门资讯

欧盟多国考虑对930亿欧元输欧... 转自:财联社【欧盟多国考虑对930亿欧元输欧美国商品加征关税】财联社1月19日电,据央视新闻报道,欧...
锡林浩特冬季那达慕暨蒙古马超级... (来源:内蒙古日报)转自:内蒙古日报□本报记者  巴依斯古楞  通讯员  崔巍光  摄影报道  1月...
@新就业形态劳动者,这些保障实...   外卖骑手穿梭街巷、网约车司机奔波全城、主播镜头前展风采、快递员忙碌分拣派送……当下新就业形态蓬勃...
雪落京城,送别“棋圣”     1月18日,一名吊唁者在整理花圈。当日,中国围棋协会名誉主席、“棋圣”聂卫平遗体告别仪式在北...
科技赋能精准治沙 长效管护筑... (来源:内蒙古日报)转自:内蒙古日报□本报记者  王塔娜  寒冬时节,朔风掠过赤峰市克什克腾旗的浑善...