大数据 Hive - overfit.cn

Hive数据倾斜的原因以及常用解决方案

overfit同步小助手 2023-09-11 02:03:50 0 收藏

13、java api访问hive操作示例

本文依赖hive环境可用，特别是HiveServer2。本文仅仅介绍通过java api访问hive的数据。

overfit同步小助手 2023-09-10 23:03:45 0 收藏

Hadoop Hbase Hive 版本对照一览

Hadoop Hbase Hive 版本对照，官网查询记录，仅供参考。

overfit同步小助手 2023-09-10 21:03:54 0 收藏

常用的hive sql

overfit同步小助手 2023-09-10 01:04:04 0 收藏

pyspark 判断 Hive 表是否存在

【代码】pyspark 判断 Hive 表是否存在。

overfit同步小助手 2023-09-09 18:03:39 0 收藏

Hive：聚合函数、GROUP BY、ORDER BY、LIMIT、执行顺序和JOIN、函数

HQL

overfit同步小助手 2023-09-09 11:04:28 0 收藏

【大数据实训】基于Hive的北京市天气系统分析报告(二)

而如今的天气网站信息多，面对着网上形形色色的天气网站和参差不齐的天气信息，想要获取有效的信息需要的时间太长，这给就业者根据自身的情况选择自己适合的天气系统带来了困难。IntelliJ IDEA是java语言开发的集成环境,是基于对象的快速应用程序开发工具，是当今最强大、最灵活的应用程序开发工具之一，

overfit同步小助手 2023-09-09 11:04:12 0 收藏

hive java.net.SocketTimeoutException: Read timed out 问题解

hive

overfit同步小助手 2023-09-09 10:04:03 0 收藏

【大数据】Hive 表中插入多条数据

在 Hive 中，我们可以使用 INSERT INTO 语句向表中插入数据。当我们需要插入多条数据时，有多种方式可以实现。本文将介绍如何在 Hive 表中插入多条数据，并提供相应的代码示例。

overfit同步小助手 2023-09-09 08:03:54 0 收藏

大数据之使用Spark增量抽取MySQL的数据到Hive数据库（1）

本题来源于全国职业技能大赛之大数据技术赛项电商赛题-离线数据处理-抽取什么是全量数据、增量数据？1.全量数据：当前需要迁移的数据库系统的全部数据。2.增量数据：在数据库系统迁移过程中，对比原数据，新产生的数据即为增量数据。用于将MySQL数据库中的数据增量导入到Hive数据仓库中的指定表格中。首先，

overfit同步小助手 2023-09-09 03:03:21 0 收藏

python连接hive

1、下载pyhive、thrift和sasl三个包（pip install就好）2、目前遇到的问题： sasl安装问题：（1）sasl安装需要到相关网站下载whl之后找到和python适配的版本进行安装，安装网址：https://www.lfd.uci.edu/~gohlke/pyth

overfit同步小助手 2023-09-08 07:03:41 0 收藏

hive查询区分大小写

hive查询如何区分大小写

overfit同步小助手 2023-09-08 05:03:50 0 收藏

hive中时间戳与时间字符串相互转换的方法教程

时间戳是数据库常用的存放日期的形式之一，表示从 UTC 时间’1970-01-01 00:00:00’开始到现在的秒数，与常规时间格式如 ‘2018-01-01 00:00:00’可以相互转换，方法如下。

overfit同步小助手 2023-09-08 02:03:14 0 收藏

2、hive相关概念详解--架构、读写文件机制、数据存储

用户接口包括 CLI、JDBC/ODBC、WebGUI。CLI(command line interface)为shell命令行Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互，类似于JDBC或ODBC协议WebGUI是通过浏览器访问Hive元数据存储通常是存储在关系数据库如

overfit同步小助手 2023-09-07 18:04:18 0 收藏

Hive表统计信息采集及应用

Hive提供了分析表和分区的功能，可以将分析后的统计信息存入元数据中，该功能可以自动执行分析表或手动执行分析表。自动执行分析主要针对新创建的表，可以通过配置启用，配置说明详见。Hive默认启用表级别的统计信息收集，在DML（除了LOAD DATA语句）操作期间，自动收集并更新统计信息。默认不启用列级

overfit同步小助手 2023-09-07 17:03:46 0 收藏

Hudi（23）：Hudi集成Hive之同步

Flink hive sync 现在支持两种 hive sync mode, 分别是 hms 和 jdbc 模式。其中 hms 只需要配置 metastore uris；注意：核心点为上述hive_sync系列的配置。

overfit同步小助手 2023-09-07 10:04:18 0 收藏

大数据bug-sqoop（二：sqoop同步mysql数据到hive进行字段限制。）

query “${sql}” \ 这个参数添加对应表的sql语句。注意结尾必须添加 $CONDITIONS ，必须添加where 条件，如果没有where条件，写成where 1=1。–split-by ${split} \ 这个参数是切分数据的分割字段，一般来讲是mysql的主键。–t

overfit同步小助手 2023-09-06 16:04:32 0 收藏

MySQL实现数据炸裂拆分(类似Hive的explode函数的拆分数组功能)

在Hive中，"explode"函数用于将数组类型的列拆分为多行，以便对数组中的每个元素进行处理。然而，在MySQL中，并没有直接的类似功能。但是，我们可以使用一些技巧来模拟这个功能，实现在MySQL中拆分数组并进行查询的操作。本文将介绍如何在MySQL中实现类似Hive的"explode"函数的拆

overfit同步小助手 2023-09-06 15:04:50 0 收藏

Hive与ClickHouse的区别

overfit同步小助手 2023-09-06 14:04:36 0 收藏

数据湖Iceberg介绍和使用(集成Hive、SparkSQL、FlinkSQL)

为了解决数据存储和计算引擎之间的适配的问题，Netflix开发了Iceberg，2018年11月16日进入Apache孵化器，2020 年5月19日从孵化器毕业，成为Apache的顶级项目。Iceberg是一个面向海量数据分析场景的开放表格式（Table Format）。表格式（Table Form

overfit同步小助手 2023-09-05 13:04:24 0 收藏