HIVE 基础(四)
创始人
2024-05-26 14:12:07
0

目录

分桶(Bucket)

设定属性

定义分桶

案例

建表语句

表数据

上传到数据

创建分桶语句

加载数据

 分桶抽样(Sampling)

随机抽样---整行数据

随机抽样---指定列

随机抽样---百分比

 随机抽样---抽取行数

Hive视图(View)

视图概述

应用场景

创建视图

查看视图定义

删除视图

更改视图属性

更改视图定义

Hive侧视图(Lateral View)


分桶(Bucket)

分桶对应于HDFS中的文件

  • 更高的查询处理效率
  • 使抽样(sampling)更高效 
  • 一般根据"桶列"的哈希函数将数据进行分桶

设定属性

SET hive.enforce.bucketing = true;

定义分桶

clustered by(employee) into 2 buckets

分桶只有动态分桶

必须使用INSERT方式加载数据

案例

建表语句

create table employee_id
(name         string,employee_id  int,work_place   array,gender_age   struct,skills_score map,depart_title map>
)row format delimitedfields terminated by '|'collection items terminated by ','map keys terminated by ':'lines terminated by '\n';

表数据

Michael|100|Montreal,Toronto|Male,30|DB:80|Product:DeveloperLead
Will|101|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Steven|102|New York|Female,27|Python:80|Test:Lead,COE:Architect
Lucy|103|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Mike|104|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Shelley|105|New York|Female,27|Python:80|Test:Lead,COE:Architect
Luly|106|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Lily|107|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Shell|108|New York|Female,27|Python:80|Test:Lead,COE:Architect
Mich|109|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Dayong|110|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Sara|111|New York|Female,27|Python:80|Test:Lead,COE:Architect
Roman|112|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Christine|113|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Eman|114|New York|Female,27|Python:80|Test:Lead,COE:Architect
Alex|115|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Alan|116|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Andy|117|New York|Female,27|Python:80|Test:Lead,COE:Architect
Ryan|118|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Rome|119|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Lym|120|New York|Female,27|Python:80|Test:Lead,COE:Architect
Linm|121|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead
Dach|122|Montreal|Male,35|Perl:85|Product:Lead,Test:Lead
Ilon|123|New York|Female,27|Python:80|Test:Lead,COE:Architect
Elaine|124|Vancouver|Female,57|Sales:89,HR:94|Sales:Lead

上传到数据

load data local inpath '/opt/stufile/employee_id.txt' overwrite into table employee_id;

创建分桶语句

create table employee_id_buckets
(name         string,employee_id  int,work_place   array,gender_age   struct,skills_score map,depart_title map>
) clustered by (employee_id) into 2 bucketsrow format delimitedfields terminated by '|'collection items terminated by ','map keys terminated by ':';

clustered by (employee_id) into 2 buckets 含义是:把employee_id设置两个分桶

加载数据

insert overwrite table employee_id_buckets select * from employee_id;

 分桶抽样(Sampling)

随机抽样---整行数据

select *
from employee_id_buckets tablesample (bucket 1 out of 2 on rand());

随机抽样---指定列

(使用分桶列更高效)

select *
from employee_id_buckets tablesample (bucket 1 out of 2 on employee_id);

随机抽样---百分比

select *
from employee_id_buckets tablesample (10 percent);

 随机抽样---抽取行数

select *
from employee_id_buckets tablesample (10 rows);

Hive视图(View)

视图概述

  • 通过隐藏子查询、连接和函数来简化查询的逻辑结构
  • 只保存定义,不存储数据
  • 如果删除或更改基础表,则查询视图将失败
  • 视图是只读的,不能插入或装载数据

应用场景

  • 将特定的列提供给用户,保护数据隐私
  • 用于查询语句复杂的场景

创建视图

支持 CTE, ORDER BY, LIMIT, JOIN等

create view view_name as select statement;

查看视图定义

show create table view_name;

删除视图

drop view_name;

更改视图属性

alter view view_name set tblproperties ('comment' = 'This is a view');

更改视图定义

alter view view_name as select statement;

Hive侧视图(Lateral View)

与表生成函数结合使用,将函数的输入和输出连接

OUTER关键字:即使output为空也会生成结果

select name, workplace, loc
from employee lateral view outer explode(split(null, ',')) a as loc;

 

支持多层级

select name,wps,gender_age.gender, gender_age.age,skill,score,depart,title
from employeelateral view explode(workplace) work_place as wpslateral view explode(skills_score) sks as skill, scorelateral view explode(depart_title) ga as depart, title;

 

相关内容

热门资讯

秤人添岁立夏忙,青瓷蛋雕绘新光 转自:上观新闻原标题:《【AI绘·二十四节气中的非遗】秤人添岁立夏忙,青瓷蛋雕绘新光》栏目主编:张陌...
乘船时要注意哪些事项?意外落水... 来源:央视新闻客户端 2025年05月04日下午,贵州省黔西市新仁苗族乡六冲河东风库区附近发生载人游...
工业和信息化部:加强通用大模型... 来源:新华社  记者近日从工业和信息化部获悉,下一步将加强通用大模型和行业大模型研发布局,加快建设工...
小观看天丨山洪+地灾预警,返程... 气象万千,小观看天!小伙伴们,早上好!今天是5月5日,星期一。今天迎来立夏节气,也是“五一”假期最后...
两人被捕 事故最终原因仍在确认... 当地时间5月4日,伊朗沙希德拉贾伊港口事故调查委员会公布了最新事故调查报告。报告指出,根据此前的初步...
市场消息:特朗普官员正探索挑战...   据报道,美国总统特朗普政府的官员正在探索挑战非营利组织免税地位的方法。媒体援引熟悉内情的人士的话...
反导系统未能拦截胡塞武装导弹,... 当地时间5月4日,以色列空军对当天胡塞武装向本-古里安机场发射导弹一事进行了调查,初步结果显示拦截失...
立夏节气预警大数据报告:雷电预... 今天(5月5日),我国进入夏季的第一个节气——立夏。这个时节,象征着春天的告别与夏日的开启,气温逐步...
加开列车! 转自:西安发布今天是2025年5月5日星期一(农历四月初八)今日立夏天气预报5日:多云,有浮尘或扬沙...
伊利集团张轶鹏:品质是伊利的最...   由Hehson财经主办的“第十届巴菲特股东大会中美投资人酒会”于美国当地时间5月3日在美国内布拉...
伊利集团张轶鹏:近两年乳企普遍...   由Hehson财经主办的“第十届巴菲特股东大会中美投资人酒会”于美国当地时间5月3日在美国内布拉...
迎难而上再捧苏杯 国羽展现强大... 转自:中国体育报5月4日,在厦门奥林匹克体育中心凤凰体育馆,中国羽毛球队如愿第14次捧起苏迪曼杯,大...
投资前瞻:周四聚焦美联储议息结...   来源:Wind万得  // 市场要闻 //  1、重磅宏观数据公布  5月7日,国家统计局将发...
今日立夏!风暖昼长,万物逐渐繁... 转自:北京日报客户端来源:北京日报客户端记者:胡德成流程编辑:U072
刘文萍到巨鹿县、隆尧县调研检查 转自:邢台网加快高端化智能化绿色化转型 持续塑造产业集群新动能新优势本报讯(记者谢霄凌 通讯员杨佳希...
俄称打击乌多目标,乌称袭击俄防... 俄罗斯国防部5月4日通报称,过去一天,俄军在苏梅、哈尔科夫、顿涅茨克、扎波罗热、赫尔松等方向打击乌军...
华安基金十年老将李欣离职!曾创...   又有资深基金经理官宣离职。  近日,华安基金发布公告,基金经理李欣因个人原因即将离任,新任基金经...
迎难而上再捧苏杯 国羽展现强... 5月4日,在厦门奥林匹克体育中心凤凰体育馆,中国羽毛球队如愿第14次捧起苏迪曼杯,大家激情庆祝这来之...
中国金茂,营收大增、利润下滑,...   来源:基本面力场  中国金茂(0817.HK)是力场君一只在关注的一只房地产股,也是力场君最喜欢...
河北滦平:雨后清晨金山岭长城云... 转自:北京日报客户端5月5日立夏节气,河北省承德市滦平县金山岭长城,迎来降雨天气。雨后清晨,云雾缭绕...