您现在的位置是：首页 >其他 >hive 清空分区表多姿势对比网站首页 其他

hive 清空分区表多姿势对比

健忘主义-Thomas-6754 2023-07-13 15:06:18

简介hive 清空分区表多姿势对比

目的

测试清空hive分区表(分区>1000) 最优方案

测试背景

表: 分区表二级分区
分区个数: 5400
数据量: 8000 万
HDFS占用: 214.9 GB
复制测试的分区表每张表耗时: 18min,其中扫描5400个路径下的文件耗时26s
- set spark.executor.memory=3g;
- set spark.executor.cores=15;
- set spark.executor.instances=6;
- set hive.exec.max.dynamic.partitions=10000000; – beeline不配置,会报错(number of dynamic partition more than 1000) 计算平台不配置,不报错,但是sql失败.
以下测试耗时在同环境同配置执行.

方案1 不推荐 truncate table tableName 删parquet,不删分区文件夹,不删hive元数据中分区信息

耗时 18min

第8min开始删除hdfs文件
第9min文件删除完毕
第18min任务执行完毕

结果:

hdfs表下分区文件夹都在,内部存储数据的parquet被删除
hive元数据中分区信息未被删除(show partitions tableName 结果还在)

方案2 alter table tableName drop if exists partition (dt <> ‘null’)

耗时 4min 删parquet,删分区文件夹,删hive元数据中分区信息

第2min开始删除文件
第3min删除完所有文件,并开始删除元数据中分区信息( 日志显示 dropped the partition dt= … )
第4min 元数据中分区信息删除完毕

结果:

hdfs表下内部存储数据的parquet被删除,分区文件夹也被删除
hive元数据中分区信息被删除(show partitions tableName 无结果)

方案3 推荐 hdfs删除分区文件夹+文件 && alter table tableName drop if exists partition (dt <> ‘null’)

耗时1min40s

hadoop fs -rm -r “/user/hive/warehouse/rljl.db/tableName/*”
- 耗时3s
alter table tableName drop if exists partition (dt <> ‘null’); – 必须删除元数据中的分区信息,否则spark看到元数据有某个分区,去HDFS找文件夹找不到会报错
- 耗时 1min 40s

结果:

hdfs表下内部存储数据的parquet被删除,分区文件夹也被删除
hive元数据中分区信息被删除(show partitions tableName 无结果)

方案4 复制表结构+删除表+表重命名不考虑(由于计算平台无法导出用户代码建表的物理模型)

步骤

create table tb1_bak like tb1;
drop table tb1;
alter table tb1_bak rename to tb1;

方案5 hive+spark都是3.x版本 hdfs删除表下所有文件[夹] + msck repair table tb1 sync partitions ;

注意: 低版本不支持sync 会导致msck只能够把hdfs新增的分区信息同步到hive元数据中,而不能把hdfs减少的分区信息同步到hive元数据中.

风语者！平时喜欢研究各种技术，目前在从事后端开发工作，热爱生活、热爱工作。

上一篇
Python | 人脸识别系统 — 人脸比对...

下一篇
MySQL知识学习06（SQL语句在MySQL中的执行...

站长推荐

QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。
QT多线程的5种用法，通过使用线程解决UI主界面的耗时操作代码，防止界面卡死。...
U8W/U8W-Mini使用与常见问题解决
U8W/U8W-Mini使用与常见问题解决
stm32使用HAL库配置串口中断收发数据（保姆级教程）
stm32使用HAL库配置串口中断收发数据（保姆级教程）
分享几个国内免费的ChatGPT镜像网址(亲测有效)
分享几个国内免费的ChatGPT镜像网址(亲测有效)
Allegro16.6差分等长设置及走线总结
Allegro16.6差分等长设置及走线总结