创建一张表
create table info( id string ,sex string ,dt string ) ;导入8条数据如下
insert into info select '001','male','201001'; insert into info select '002','female','201001'; insert into info select '003','male','201002'; insert into info select '004','female','201002'; insert into info select '005','male','201003'; insert into info select '006','female','201003'; insert into info select '007','male','201004'; insert into info select '008','female','201004';创建一级分区表
create table info_pt1( id string ,sex string ,dt string ) PARTITIONED BY (dt_pt string) ;查询表,202001分区中确实有数据了,并且分区目录已创建好,分区目录中有数据文件
将数据导入二级分区,注意分区字段值不要用中文
insert overwrite table info_pt2 partition (dt_pt='201001',sex_pt='male') select id ,sex ,dt from info where dt='201001' and sex='male' ;查询二级分区表
动态分区有两项需要设置,如下
set hive.exec.dynamici.partition=true; --开启动态分区,默认是false set hive.exec.dynamic.partition.mode=nonstrict; --开启允许所有分区都是动态的删除之前一级分区表的分区,删除分区会将hdfs上的分区文件夹删掉,move到.trash文件夹中,默认保留7天,删除所有分区后表就会查询不到数据
ALTER TABLE info_pt1 DROP IF EXISTS PARTITION (dt_pt='201001');动态分区插入数据
set hive.exec.dynamici.partition=true; --开启动态分区,默认是false set hive.exec.dynamic.partition.mode=nonstrict; --开启允许所有分区都是动态的 insert overwrite table info_pt1 select id ,sex ,dt ,dt as dt_pt from info ;查询发现数据都插入到对应的分区,在hdfs上数据落在不同的分区目录下
二级全动态分区
set hive.exec.dynamici.partition=true; --开启动态分区,默认是false set hive.exec.dynamic.partition.mode=nonstrict; --开启允许所有分区都是动态的 insert overwrite table info_pt2 select id ,sex ,dt ,dt as dt_pt ,sex as sex_pt from info ;查询结果如下
一级静态分区,二级动态分区
ALTER TABLE info_pt2 DROP IF EXISTS PARTITION (dt_pt='201001'); ALTER TABLE info_pt2 DROP IF EXISTS PARTITION (dt_pt='201002'); ALTER TABLE info_pt2 DROP IF EXISTS PARTITION (dt_pt='201003'); ALTER TABLE info_pt2 DROP IF EXISTS PARTITION (dt_pt='201004'); set hive.exec.dynamici.partition=true; --开启动态分区,默认是false set hive.exec.dynamic.partition.mode=nonstrict; --开启允许所有分区都是动态的 insert overwrite table info_pt2 partition(dt_pt='201001',sex_pt) select id ,sex ,dt ,sex as sex_pt from info where dt='201001' ;查询结果如下
1.分区字段就是字段,可以用来取值和筛选,分区字段不同点表现在hdfs有分区字段目录,对于内部表来说表目录下就是数据文件,分区表的表下面有分区目录,分区目录下才是文件。
2.分区表相对于内部表的优点:内部表查询时扫描表目录下的所有文件,分区表筛选对应分区,会到分区对应的目录下扫描文件,查询效率大大提升。
3.静态分区适用可以传参的情况下,shell中hive --hiveconf和--hivevar可以实现传参。只能写sql的话建议适用动态分区,动态分区还可用来刷数据,在维度表(或者叫字典表,码表)变化的情况下,分区表使用动态分区可以快速刷新历史数据。