Hive - overfit.cn

Pyspark中catalog的作用与常用方法

Catalog是Spark中用于管理元数据信息的接口，这些元数据可能包括库、内部或外部表、函数、表列及临时视图等。总的来说，PySpark Catalogs是PySpark框架中用于管理和查询元数据的重要组件，它使得Python用户能够更有效地利用PySpark进行大数据处理和分析。

overfit同步小助手 2024-11-07 13:04:00 0 收藏

Hive部署测试(4.0.0)

hadoop版本3.3.6 mysql版本8.0.20。

overfit同步小助手 2024-11-07 13:03:43 0 收藏

Hive使用与介绍

Hive 提供了一种简化的方式来查询和分析大数据集，通过 HiveQL 让用户能够轻松地与大数据进行交互。如果你有具体的使用场景或遇到的问题，随时可以提供更多详细的帮助。

overfit同步小助手 2024-11-07 10:03:24 0 收藏

【头歌】Hive表DDL操作（一）答案

【头歌】Hive表DDL操作（一）答案第1关：Create/Alter/Drop 数据库第2关：Create/Drop/Truncate 表第3关：Alter 表/列第4关：表分区

overfit同步小助手 2024-11-06 23:03:34 0 收藏

Hive的存储格式

Hive支持的存储数的格式主要有：TEXTFILE(默认格式) 、SEQUENCEFILE、RCFILE、ORCFILE、PARQUET。textfile为默认格式，建表时没有指定文件格式，则使用TEXTFILE，导入数据时会直接把数据文件拷贝到hdfs上不进行处理;sequencefile，rcf

overfit同步小助手 2024-11-06 08:03:45 0 收藏

Hive环境的搭建【详细教程】

Hive是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为类似于数据库中的表，并提供类似于SQL的查询语言（HiveQL）来进行数据查询、分析和管理。Hive的主要优点是可以处理大量的数据，并且可以通过扩展集群来提高处理能力。

overfit同步小助手 2024-11-05 06:03:40 0 收藏

Pyspark中pyspark.sql.functions常用方法（1）

是 PySpark 中用于定义用户自定义函数（UDF）的工具。UDF允许你在Spark DataFrame中使用Python函数处理数据。UDF的性能通常不如内置的Spark函数，因为它们会引入额外的Python虚拟机开销。只有当没有其他选项时才应该使用UDF。# 自定义函数df2.show()#

overfit同步小助手 2024-11-04 04:04:27 0 收藏

SQL实战之行列互转

以上就是3种行转列的方法，还有一种是生成 struct 结构的方式，在次我就不赘述了，实用性当然是第1种方便了，其他2种可以适当装个13。以上就是我介绍的2种列转行方式，建议大家使用第1种方式，主打一个快捷省事。

overfit同步小助手 2024-11-03 19:02:12 0 收藏

大数据面试题整理——Hive

Hive是一个构建在Hadoop上的数据仓库软件，它提供了类似SQL的查询语言，使得用户可以用SQL来查询存放在Hadoop上的数据。Hive是一种结构化数据的存储和查询机制，它可以将SQL语句转换为MapReduce任务在Hadoop上执行。Hive可以自定义单行函数、聚合函数、炸裂函数。定义单行

overfit同步小助手 2024-11-03 03:03:36 0 收藏

Hive3：表性能优化-分区与分桶

Hive

overfit同步小助手 2024-11-02 16:03:49 0 收藏

Hive Metastore 查分区大小批量建表语句

concat(‘)’,(case when t.PARAM_VALUE is null then ’ ’ else concat(’ comment ‘,’‘’‘,t.PARAM_VALUE,’‘’ ‘) end),concat(case when t.PARTITIONED is null the

overfit同步小助手 2024-11-02 14:03:49 0 收藏

Hive和Hbase的区别

特性HiveHBase数据模型类似 RDBMS，使用表结构NoSQL，基于列的稀疏表存储方式基于 HDFS，数据以文件存储基于 HDFS，列存储查询语言Java API，支持 SQL-like 查询适用场景批处理、大规模数据分析实时数据访问、随机读写数据更新不支持频繁更新，只适合批处理支持频繁读写和

overfit同步小助手 2024-11-01 21:03:53 0 收藏

大数据Hive安装与配置

Hive 是一个构建在 Hadoop 之上的数据仓库工具，用于数据的提取、转换和加载（ETL），并提供了一种类 SQL 的查询语言（HiveQL），使用户能够轻松查询和分析大规模数据集。

overfit同步小助手 2024-11-01 19:03:22 0 收藏

Kettle报错：使用mysql向hive中插入数据只能插入两条的错误

我们在用kettle，使用mysql向hive中插入数据的时候，创建好了一个转换，里面的操作也全部完成了之后，在执行时爆出一下错误例如我这里写入的表输入为：表输出为：看起来是一点问题也没有，但是一执行就会报上述错误，这时只需要在我们的/opt/installs/hive/conf下创建一个 .hiv

overfit同步小助手 2024-11-01 13:03:56 0 收藏

【DBeaver】连接带kerberos的hive[Apache|HDP]

配置C:\ProgramData\MIT\Kerberos5\krb5.ini文件，将KDC Server服务器上/etc/krb5.conf文件中的部分内容，拷贝到krb5.ini中，如果直接将krb5.conf文件更名为krb5.ini并替换krb5.ini，会出现文件格式问题导致MIT Ker

overfit同步小助手 2024-11-01 08:03:20 0 收藏

Hive笔记

hive、hadoop、大数据、ods、app层、数据建模类型

overfit同步小助手 2024-11-01 07:03:46 0 收藏

Python——脚本实现datax全量同步mysql到hive

在我们构建离线数仓时或者迁移数据时，通常选用sqoop和datax等工具进行操作，sqoop和datax各有优点，datax优点也很明显，基于内存，所以速度上很快，那么在进行全量同步时编写json文件是一项很繁琐的事，是否可以编写脚本来把繁琐事来简单化，接下来我将分享这样一个mysql全量同步到hi

overfit同步小助手 2024-10-30 21:03:39 0 收藏

Hive优化:Hive的执行计划、分桶、MapJoin、数据倾斜

overfit同步小助手 2024-10-30 08:04:19 0 收藏

Hive 中的 Sort By、Order By、Cluster By 和 Distribute By 的详细解析

在 Hive 中，理解SORT BYORDER BYCLUSTER BY和的不同之处对于实现高效的数据处理至关重要。每个关键字都有其特定的应用场景和性能特点。在使用时，根据数据集的大小、需要的排序方式和处理逻辑选择合适的关键字，可以显著提高查询的效率和准确性。希望这篇文章能帮助你更好地理解 Hive

overfit同步小助手 2024-10-30 08:04:10 0 收藏

Spark连接访问Hive数据

Spark访问Hive数据

overfit同步小助手 2024-10-29 17:03:20 0 收藏