跳到主要内容

15 篇文档带有标签「Hive」

查看所有标签

Hive 执行计划 ⭐️⭐️⭐️

本文详细介绍了 Hive EXPLAIN 的使用方法,通过解读执行计划中的 Stage 和 Operator,结合实际案例,帮助诊断 SQL 性能瓶颈,掌握 Hive 调优的核心技巧。

Hive任务优化总览 ⭐️⭐️⭐️

面对Hive离线数仓任务耗时过长的问题,本文提供了一套系统性的性能优化指南。文章从HiveQL逻辑、数据模型、参数调优及任务调度四大维度出发,深入剖析了列裁剪、谓词下推、Join关联、数据倾斜、小文件治理等11个核心优化技巧,并提供了具体的SQL示例与参数配置建议,旨在帮助数据开发者高效定位并解决性能瓶颈。

Hive参数调优 ⭐️⭐️⭐️

本文深入探讨 Hive 性能调优的核心参数,涵盖 Map/Reduce 数量控制、并行执行、Join 优化、严格模式等,并提供详尽的案例实操,帮助有效提升 Hive 查询效率。

HQL语法优化 ⭐️⭐️⭐️

本文详细介绍了 Hive SQL 的六种核心性能优化技术,包括列/分区裁剪、谓词下推、聚合优化、Join 优化和排序优化,通过代码实例和执行计划分析,助你写出更高性能的 HQL。

Join详解及底层原理 ⭐️⭐️⭐️

全面解析 Hive 中的各种 Join 类型、使用场景及注意事项。深入剖析Hive中四种核心Join算法:Common Join、Map Join、Bucket Map Join和SMB Join的底层原理、适用场景及优化策略

六种类型的存储格式 ⭐️⭐️

深入剖析 Apache Hive 支持的六种文件存储格式(TextFile, RCFile, SequenceFile, AVRO, ORC, Parquet),重点对比 ORC 和 Parquet 的性能、结构与适用场景。

排序与分区详解 ⭐️⭐️⭐️

本文深入剖析Hive中四种排序与分区子句的原理与区别,并通过实例讲解如何利用它们进行SQL性能优化,助你写出更高效的数据查询。

数据倾斜优化 ⭐️⭐️⭐️

深入探讨数据倾斜的成因、表现,并针对 GROUP BY、JOIN 和 COUNT DISTINCT 等常见场景,提供详细的优化方案与代码实践。

窗口函数 ⭐️⭐️⭐️

系统讲解SQL窗口函数的概念、语法与核心应用,通过排序、聚合、位移等函数示例,讲解了TopN、累积求和、连续登录等经典实战场景。

行列互转 ⭐️⭐️⭐️

本文详细介绍了在 Hive SQL 中如何进行行转列与列转行操作,通过 `explode`、`posexplode`、`lateral view`、`collect_list`、`collect_set` 和 `CASE WHEN` 等函数,结合具体实例,帮助掌握数据转换的核心技巧。