大数据 Hive - overfit.cn

Hive SQL中判断内容包含情况的全面指南

原理如果现有的函数无法满足特定的包含内容判断需求，可以编写用户自定义函数（UDF）。例如，当需要使用复杂的自然语言处理规则或特定的业务逻辑来判断是否包含某些内容时。示例（以Python编写UDF为例）首先，编写一个Python函数来实现判断逻辑。例如，判断一个字符串是否包含另一个字符串，并且忽略大小

overfit同步小助手 2024-11-15 13:03:42 0 收藏

Hive 必知必会

Hive是一个基于Hadoop的数据仓库工具，可以将sql转为MR或Spark任务进行运算，又可以说是MapReduce或Spark sql的客户端；由于直接使用MR进行开发的难度大，学习成本高，所以采用了类sql语法的hive。支持的计算引擎：MR、Tez、Spark，暂不展开。

overfit同步小助手 2024-11-15 00:04:06 0 收藏

【Hive】2-Apache Hive概述、架构、组件、数据模型

Apache Hive概述、架构、组件、数据模型

overfit同步小助手 2024-11-14 18:03:23 0 收藏

Hive基础

Hive是构建在Hadoop之上的数据仓库工具，它提供了一种机制来查询和管理PB级别的分布式存储数据。Hive使用类似于SQL的查询语言——HiveQL，使得熟悉SQL的用户能够轻松地进行大数据处理。通过Hive，可以将复杂的MapReduce任务简化为简单的查询语句，极大地提高了开发效率。Hive

overfit同步小助手 2024-11-14 14:03:40 0 收藏

【大数据技术基础 | 实验十】Hive实验：部署Hive

本实验介绍Hive的工作原理和体系架构，学会如何进行Hive的内嵌模式部署，启动Hive，然后将元数据存储在HDFS上。

overfit同步小助手 2024-11-14 08:06:31 0 收藏

【面试题】Hive 查询：如何查找用户连续三天登录的记录

在分析用户行为时，查询用户的连续登录数据是一个常见需求。例如，我们需要找出每个用户连续三天登录的记录。给定一个包含用户登录记录的表，我们需要对这些数据进行处理，提取出用户连续三天登录的日期。

overfit同步小助手 2024-11-13 17:03:32 0 收藏

大数据之hive(分布式SQL计算工具)加安装部署

解压:命令: tar -zxvf /export/server/apache-hive-4.0.1-bin.tar.gz -C /export/server/设置软连接:ln -s /export/server/apache-hive-4.0.1-bin /export/server/hive。:

overfit同步小助手 2024-11-12 22:03:49 0 收藏

70道Hive面试八股文（答案、分析和深入提问）整理

每种保存元数据的方式都有其适用场景和特点，用户可以根据数据规模、并发需求、性能要求及技术栈来选择合适的元数据存储方案。在生产环境中，通常推荐使用外部的关系型数据库，以提高整体的性能与稳定性。静态分区适合固定、少量的分区场景，使用上更简单，但灵活性不足。动态分区适合频繁变动或数据量大的场景，具备灵活性

overfit同步小助手 2024-11-12 00:04:06 0 收藏

Hive复杂数据类型之array数组

懂底层原理，懂来龙去脉，你才是真的懂。

overfit同步小助手 2024-11-11 10:03:28 0 收藏

Hive集群出现报错信息解决办法

解决办法：上述产生的报错原因是在我重新安装Hive后出现的，经过分析发现是HDFS的目录文件有问题，删除。解决办法：1.删除mysql中的元数据库（metastore，查看你的元数据名称。

overfit同步小助手 2024-11-11 05:03:36 0 收藏

java157_springboot基于Hive的网络电视剧收视率分析系统python爬虫可视化大屏

本课题使用了SpringBoot、Vue和MySQL作为技术栈，体现了其技术可行性。SpringBoot作为轻量级Java开发框架，能提高开发效率和降低系统复杂度；Vue作为流行的前端框架，实现页面的动态渲染和交互；MySQL作为关系型数据库管理系统，支持数据的存储和管理。整合后，平台可以借助RES

overfit同步小助手 2024-11-10 06:03:32 0 收藏

Java JDBC连接Kerberos认证的HIVE 和 Impala

JDBC 连接 HIVE 和 Impala

overfit同步小助手 2024-11-09 23:03:45 0 收藏

Hive学习笔记

尚硅谷hive学习笔记

overfit同步小助手 2024-11-09 21:03:44 0 收藏

hive-3.1.3部署文档

我要在192.168.128.131上远程访问上述的192.168.128.130服务器上的hive服务。由于内嵌模式使用场景太少（基本不用），所以仅练习安装查看基础功能。1. 上传hive安装包、解压到指定位置。1. 上传hive安装包、解压到指定位置。1、安装mysql 5.7.18。2、上传m

overfit同步小助手 2024-11-09 02:04:15 0 收藏

【大数据】Hive快速入门

创建数据库：如果数据库已存在，则不执行创建操作。：指定数据库在HDFS上的存储位置。：为数据库添加注释。修改数据库：修改数据库的存储位置。：修改数据库的属性。删除数据库：如果数据库存在，则执行删除操作。[CASCADE]：级联删除，如果数据库中有表，则连同表一起删除。创建表[EXTERNAL]：创建

overfit同步小助手 2024-11-08 18:03:40 0 收藏

二百六十八、Kettle——同步ClickHouse清洗数据到Hive的DWD层静态分区表中（每天一次）

Kettle——同步ClickHouse清洗数据到Hive的DWD层静态分区表中

overfit同步小助手 2024-11-08 03:03:39 0 收藏

Pyspark中catalog的作用与常用方法

Catalog是Spark中用于管理元数据信息的接口，这些元数据可能包括库、内部或外部表、函数、表列及临时视图等。总的来说，PySpark Catalogs是PySpark框架中用于管理和查询元数据的重要组件，它使得Python用户能够更有效地利用PySpark进行大数据处理和分析。

overfit同步小助手 2024-11-07 13:04:00 0 收藏

Hive部署测试(4.0.0)

hadoop版本3.3.6 mysql版本8.0.20。

overfit同步小助手 2024-11-07 13:03:43 0 收藏

Hive使用与介绍

Hive 提供了一种简化的方式来查询和分析大数据集，通过 HiveQL 让用户能够轻松地与大数据进行交互。如果你有具体的使用场景或遇到的问题，随时可以提供更多详细的帮助。

overfit同步小助手 2024-11-07 10:03:24 0 收藏

【头歌】Hive表DDL操作（一）答案

【头歌】Hive表DDL操作（一）答案第1关：Create/Alter/Drop 数据库第2关：Create/Drop/Truncate 表第3关：Alter 表/列第4关：表分区

overfit同步小助手 2024-11-06 23:03:34 0 收藏