Hive - overfit.cn

Hive SQL必刷练习题：留存率问题（*****）

其实这类问题的关键在于，你要想办法将每个用户的最初登录时间和第二天登录时间这两个信息，放到一行中。这就是先求出来初次登陆时间后，然后借助这个表进行left join，之后再此基础上以最初登录时间进行分组group by，再用聚合函数即可。但是还有一种思路，就是直接进行开窗排序，然后用row_numb

overfit同步小助手 2024-04-02 20:03:58 0 收藏

Hive sql

那么cluster by就是多了一个分组的功能，但是分组和排序的字段只能是1个，而且只能是升序排序。关于相关子查询，其实是这样的，会先执行select A from t1这个操作，也就是先执行父查询这个操作，然后会逐个的到子查询的集合中去检查是否存在这个父查询的数据，如果子查询的集合中存在我这个父查

overfit同步小助手 2024-04-02 13:03:24 0 收藏

hive 、spark 、flink之想一想

1：hive是怎么产生的？Hive是由Facebook开发的，目的是让拥有SQL知识的分析师能够在Hadoop上进行数据查询。Hive提供了类SQL的查询语言HiveQL，通过将HiveQL查询转换为MapReduce任务来在Hadoop上处理大规模数据。2：hive的框架是怎么样的？3：hive

overfit同步小助手 2024-04-02 12:03:09 0 收藏

大数据开发（Hive面试真题-卷二）

Hive的三种自定义函数包括UDF（User-Defined Function（用户定义函数））、UDAF（User-Defined Aggregate Function（用户定义聚合函数））和UDTF（User-Defined Table-Generating Function（用户定义表生成函数

overfit同步小助手 2024-04-02 10:03:32 0 收藏

基于Hive大数据分析springboot为后端以及vue为前端的的民宿系

本文介绍了如何利用Hive进行大数据分析，并结合Spring Boot和Vue构建了一个民宿管理系统。该民民宿管理系统包含用户和管理员登陆注册的功能，发布下架酒店信息，模糊搜索，酒店详情信息展示，收藏以及对收藏的酒店进行排序可视化，管理员发布，添加用户的功能。

overfit同步小助手 2024-04-01 23:02:43 0 收藏

Spark重温笔记（五）：SparkSQL进阶操作——迭代计算，开窗函数，结合多种数据源，UDF自定义函数

1-定义series函数2-pandas_udf自定义函数和类型，或者@pandas_udf3-将series数据源转化为dataframe格式import os# 当存在多个版本时，不指定很可能会导致出错print("普通的集合的基本series相乘：")# 提出问题：如果使用上面的方式仅仅可以处

overfit同步小助手 2024-04-01 13:03:36 0 收藏

X2Doris实现Hive离线数据自动化一键迁移至Doris

X2Doris 是 SelectDB （Doris主要开发维护团队）开发的，专门用于将各种离线数据迁移到 Apache Doris 中的核心工具，该工具集自动建 Doris 表和数据迁移为一体，目前支持了 Apache Doris/Hive/Kudu、StarRocks 数据库往 Doris

overfit同步小助手 2024-04-01 12:03:15 0 收藏

如何构建Hive数据仓库Hive 、数据仓库的存储方式以及hive数据的导入导出

官方定义：数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的，这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。（1）安装hive常规配置，这里不记录安装过程唯一需要注意的地方是有一个hive.metastroe.dirname属性需要配置配置的值是h

overfit同步小助手 2024-03-31 18:03:45 0 收藏

Ubuntu实现Hive与HBase的安装与配置（单机）

大数据作业四，整合了Hive和HBase的Ubuntu单机配置的操作步骤以及常见错误

overfit同步小助手 2024-03-30 13:03:33 0 收藏

Hive3 on Spark3配置

之后，将 HDFS 路径“hdfs://cdh01:8020/spark-jars/*”下的原始 “zstd-jni-1.4.4-3.jar” 删除，并替换为 “zstd-jni-1.4.9-1.jar” 后（如上图所示），经再度测试，该问题就解决了。：Hive既作为存储元数据又负责SQL的解析优化

overfit同步小助手 2024-03-30 09:03:43 0 收藏

Hive SQL，使用UNION ALL 纵向合并表，当字段为空值时报错

SQL 错误 [40000] [42000]: Error while compiling statement: FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: The column KEY._c

overfit同步小助手 2024-03-30 00:03:48 0 收藏

hive rlike

需要注意的是，在 Hive 中使用正则表达式时，通常需要使用正则表达式的规则语法。它用于判断一个字符串是否匹配指定的正则表达式。，我们想要查找内容中包含数字的行，可以使用。是用来进行正则表达式匹配的操作符。在 Hive SQL 中，列中包含任何数字的行。

overfit同步小助手 2024-03-29 20:03:34 0 收藏

深入解析《企业级数据架构》：HDFS、Yarn、Hive、HBase与Spark的核心应用

overfit同步小助手 2024-03-29 09:03:20 0 收藏

hive窗口函数学习总结

Hive中的窗口函数主要用于在数据集的子集（窗口）上执行计算。窗口函数可以解决一些复杂的数据分析问题，例如计算移动平均值、累计和、排名等。例如，如果你想要计算每个用户的购买总额排名，或者计算每个月的销售额是前三个月的平均值的多少倍，这些问题都可以通过窗口函数来解决。窗口函数的主要特点是可以在不改变原

overfit同步小助手 2024-03-28 18:03:42 0 收藏

Hive_last_value()

函数是一个窗口函数，用于返回窗口内的最后一个值。在同一分区内，窗口函数将独立计算每个分区。表示基于指定的列或表达式对行进行排序，这对于定义“最后”是基于什么顺序很重要。，它可能不会返回期望的结果。为了确保能够得到分区内所有行的最后一个值，可以使用。两列，以下SQL语句将返回每个分区（在本例中为每个日

overfit同步小助手 2024-03-28 16:03:40 0 收藏

Hive中的explode函数、posexplode函数与later view函数

在离线数仓处理通过HQL业务数据时，经常会遇到行转列或者列转行之类的操作，就像concat_ws之类的函数被广泛使用，今天这个也是经常要使用的拓展方法。

overfit同步小助手 2024-03-28 14:03:48 0 收藏

【SQL相关】Hive行列字符串的合并与拆分

Hive行列字符串的合并与拆分。

overfit同步小助手 2024-03-28 03:03:49 0 收藏

Hive日期函数应用之月份差值计算

一个常见的方法是首先将日期转换为 Unix 时间戳（如果它们还不是的话），然后通过计算时间戳之间的差值，并将这个差值转换为月份。然而，这种方法并不总是准确的，因为它假设每个月都有相同的天数（30或31天），而实际上不同月份的天数是不同的。或其他适当的函数来将它们转换为日期类型，或者确保它们是以 Hi

overfit同步小助手 2024-03-27 20:03:41 0 收藏

Java实现自定义Hive认证账户密码

overfit同步小助手 2024-03-27 08:03:29 0 收藏

Hive的时间操作函数

hive 里面的时间函数有很多，今天单讲dayofweek函数，背景：有时候不仅要出日报，还要出周报，需要很多天归为同一周，求sum或者均值；在Hive中，可以使用dayofweek()函数来计算某个日期是一周的第几天。其中，date表示要计算的日期，可以是一个日期字符串或者一个日期类型的列名。da

overfit同步小助手 2024-03-26 09:03:24 0 收藏