15 篇文档带有标签「Hive」

Hive 执行计划 ⭐️⭐️⭐️

本文详细介绍了 Hive EXPLAIN 的使用方法，通过解读执行计划中的 Stage 和 Operator，结合实际案例，帮助诊断 SQL 性能瓶颈，掌握 Hive 调优的核心技巧。

Hive 表详解 ⭐️⭐️

Hive表详解

Hive任务优化总览 ⭐️⭐️⭐️

面对Hive离线数仓任务耗时过长的问题，本文提供了一套系统性的性能优化指南。文章从HiveQL逻辑、数据模型、参数调优及任务调度四大维度出发，深入剖析了列裁剪、谓词下推、Join关联、数据倾斜、小文件治理等11个核心优化技巧，并提供了具体的SQL示例与参数配置建议，旨在帮助数据开发者高效定位并解决性能瓶颈。

Hive参数调优 ⭐️⭐️⭐️

本文深入探讨 Hive 性能调优的核心参数，涵盖 Map/Reduce 数量控制、并行执行、Join 优化、严格模式等，并提供详尽的案例实操，帮助有效提升 Hive 查询效率。

Hive底层执行原理 ⭐️⭐️

Hive底层执行原理

Hive架构组成 ⭐️⭐️

Hive架构组成

HQL语法优化 ⭐️⭐️⭐️

本文详细介绍了 Hive SQL 的六种核心性能优化技术，包括列/分区裁剪、谓词下推、聚合优化、Join 优化和排序优化，通过代码实例和执行计划分析，助你写出更高性能的 HQL。

Join详解及底层原理 ⭐️⭐️⭐️

全面解析 Hive 中的各种 Join 类型、使用场景及注意事项。深入剖析Hive中四种核心Join算法：Common Join、Map Join、Bucket Map Join和SMB Join的底层原理、适用场景及优化策略

六种类型的存储格式 ⭐️⭐️

深入剖析 Apache Hive 支持的六种文件存储格式（TextFile, RCFile, SequenceFile, AVRO, ORC, Parquet），重点对比 ORC 和 Parquet 的性能、结构与适用场景。

分组聚合详解及优化 ⭐️⭐️⭐️

学习 Hive 中如何使用 GROUP BY 进行数据分组聚合，并掌握 GROUPING SETS, CUBE, ROLLUP 等多维分析以及性能优化技巧。

排序与分区详解 ⭐️⭐️⭐️

本文深入剖析Hive中四种排序与分区子句的原理与区别，并通过实例讲解如何利用它们进行SQL性能优化，助你写出更高效的数据查询。

数据倾斜优化 ⭐️⭐️⭐️

深入探讨数据倾斜的成因、表现，并针对 GROUP BY、JOIN 和 COUNT DISTINCT 等常见场景，提供详细的优化方案与代码实践。

窗口函数 ⭐️⭐️⭐️

系统讲解SQL窗口函数的概念、语法与核心应用，通过排序、聚合、位移等函数示例，讲解了TopN、累积求和、连续登录等经典实战场景。

行列互转 ⭐️⭐️⭐️

本文详细介绍了在 Hive SQL 中如何进行行转列与列转行操作，通过 `explode`、`posexplode`、`lateral view`、`collect_list`、`collect_set` 和 `CASE WHEN` 等函数，结合具体实例，帮助掌握数据转换的核心技巧。

行式存储与列式存储 ⭐️⭐️

本文详细介绍了行式存储和列式存储的核心原理、优缺点，并对比了它们在不同大数据场景（如Hive、HDFS）下的适用性。