Kylin构建参数优化之全局字典dict和快照表table_snapshot
创始人
2024-05-29 16:50:51
0

目录

  • 1. 全局字典dict
    • 1.1 全局字典介绍
    • 1.2 Kylin全局字典的生成原理
    • 1.3 全局字典调优参数
    • 1.4 全局字典的使用
    • 1.5 查看HDFS的dict文件
  • 2. 快照表table_snapshot

1. 全局字典dict

1.1 全局字典介绍

精确去重,会使用bit map方法。对于整型数据,可以将这些整数直接保存到bit map中。但其他类型,如String,为了实现精确的重复数据删除,首先需要对这些数据建立一个字典进行统一映射,然后使用bit map方法进行统计

1.2 Kylin全局字典的生成原理

  1. 每个构建任务都将生成一个新的全局字典,用版本号保存,旧的全局字典会逐渐删除
  2. 一个全局字典包含一个元数据文件和多个字典文件,每个字典文件称为一个 bucket
  3. 每个bucket被划分为两个映射(Map),并将这两个映射组合成一个完整的映射关系

结构如下:

全局字典结构

1.3 全局字典调优参数

kylin.dictionary.globalV2-threshold-bucket-size (默认值500000):如果CPU资源充足,减少此配置的值可以减少单个分区中的数据量,从而加快构建全局字典

1.4 全局字典的使用

在Cube Designer的Measures中,进行精确去重计数度量的添加,如下所示,进行薪水的总类统计

全局字典使用这样每一次cube的构建,都会产生一份全局字典

1.5 查看HDFS的dict文件

查看HDFS,如下所示:
HDFS的dict文件

2. 快照表table_snapshot

每一张快照表对应一个Hive维度表,Kylin的cube每次构建都会对hive维度表创建一个新的快照

主要有2个参数来调优,如下表所示:

参数名默认值说明
kylin.snapshot.parallel-build-enabledtrue是否开启并行构建,建议开启
kylin.snapshot.shard-size-mb128MB如果CPU资源充足,可以减少值来增
加并行度。并行度 = 原表数据量 / 该参数

相关内容

热门资讯

我的耳朵在夜里能总能听到敲击声... 我的耳朵在夜里能总能听到敲击声,像打铁的声音Hhhh原来也有人和我一样的感觉,我很小的时候就觉得,安...
乘车的乘乘的成语是什么? 乘车的乘乘的成语是什么?乘风破浪、乘龙快婿、乘胜追击、乘人之危、乘虚而入、乘兴而来、乘其不备、乘热打...
娃娃晒太阳原因是什 娃娃晒太阳原因是什娃娃晒太阳原因是什... 娃娃晒太阳原因是什 展开 阳光可以促进人体对钙的吸...
请不要生气,他只是开开玩用英语... 请不要生气,他只是开开玩用英语翻译怎么写.Don't be angry,He was just ki...
驻日本大使馆提醒在日中国公民防... 来源:中国驻日本大使馆一、据日本气象厅统计,自6月21日8时至7月2日16时,鹿儿岛县吐噶喇列岛近海...
中国船舶:拟换股吸收合并中国重... 中证智能财讯中国船舶(600150)7月4日晚间公告,公司拟向中国重工(维权)(601989)全体换...
天箭科技:预计2025年上半年... 中证智能财讯天箭科技(002977)7月4日晚间披露业绩预告,预计2025年上半年归母净利润亏损59...
全红婵,确认缺席 7月4日,中国游泳协会正式公布新加坡世锦赛参赛名单,陈芋汐领衔中国跳水队出战,全红婵缺席本届比赛。据...
短到极致,也美到极致的诗词有哪... 短到极致,也美到极致的诗词有哪些?得成比目何辞死,愿作鸳鸯不羡仙。我觉得这句诗真的很美,是我们心目中...
欧洲央行管委温施:通胀的下行风... 格隆汇7月4日丨欧洲央行管委温施表示,通胀风险正指向下行而非上行。在发表讲话时,他将能源价格下跌、欧...