大数据面试之hive重点(四)

大数据面试之hive重点(四)

hive on spark 执行sql报错

报错信息ERROR : FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed due to: Job 3 cancelled。这个是因为

大数据ClickHouse进阶(十):ClickHouse的Array Join子句

Array join 子句允许在数据表的内部,与数组类型的字段进行join操作,从而将一行数组展开为多行。我们可以使用array join针对以上表数组字段一条膨胀成多条数据,类似Hive中的explode函数,在ClickHouse中没有explode函数,可以使用array join 达到同样效

hive shell中有许多日志信息的解决办法

hive shell中出现大量日志信息的解决办法!hive-3.1.2

Hadoop内hive之间,hive与DB、ES等之间数据交互的问题与解决方案

之前做大数据处理,经常遇到各种问题。很多时候是项目作业简单项配置问题,也可能是导入导出参数配置的问题,也可能是公司Hadoop平台的问题。那么如何排查问题,解决问题?这种事情,除了自己要积累一些大数据的知识和技能外,也需要一些获得一些排查问题的技巧、方法。

SparkSQL 总结(未完待续)

Spark SQL 是Spark 用于结构化数据(structured data)处理的 Spark 模块。

Spark SQL操作数据源

一、操作MySql二、操作HIVE数据库①准备环境②创建表类型③插入数据④Spark SQL 操作Hive数据库①Spark读取MySqlStep1 登录SQLStep2 创建数据库,并选择数据库Step3 创建表Step4 插入数据到表中。

折腾一晚上的事情,明白了一个道理

感悟:有时候很简单的笨办法,比那些高大上的技术要实用的多。有一个数据同步,大约4亿条记录,没有分区。现在要按照天,小时分区写入到iceberg的分区表中。源数据中本身就是很多几十k大小的非常多的小文件。于是在读取时,总想着要shuffle,合并小文件,于是是这样的:hive_df = spark.t

数据仓库hive本地模式安装

hive是建立在hadoop文件系统上的数据仓库,提供了一系列的工具,能对存储在HDFS中的数据进行提取,转换,加载等操作;该文主要介绍了hive本地模式的部署。

【Hive】各种join连接用法

hive join连接的各种用法

大数据项目中数据倾斜

大数据项目中数据倾斜

【大数据】HDFS、Hive、FTP的内网间的相互传递(附脚本获取数据)

汝之观览,吾之幸也!本文讲解生产中会遇到的问题,一般集群都部署在外网,如果集群部署在内网,那么怎么同步之前的Hive数据到外网,或者两个内网间怎么同步Hive数据,本文主要以shell脚本演示。...

hive统计每五分钟交易量SQL

1,通过函数 floor()、ceil()、date_format()函数分别获取交易时间字段对应的五分总字段。方法二 通过lateral view函数配合explode及split 实现时间列表初始化。

HiveSQL优化技巧总结

基于Hive的开发过程中主要涉及到的可能是SQL优化这块。减少数据量(例如分区、列剪裁)避免数据倾斜(例如加参数、Key打散)避免全表扫描(例如on添加加上分区等)减少job数(例如相同的on条件的join放在一起作为一个任务)

超详细Hive总结!!!

超详细Hive总结!!!快来看

Hive面试题系列-求用户最大连续活跃天数 2

代码】Hive面试题系列-求用户最大连续活跃天数 2。

【SQL解析】- SQL血缘分析实现篇01

SQL血缘解析实战hive血缘解析presto血缘解析表血缘解析字段血缘解析血缘解析生产实践gudusoft血缘解析sqlflow血缘解析druid血缘解析antlr血缘解析

HIVE优化和数据倾斜、合并小文件

HIVE优化和数据倾斜、合并小文件

一文速学-HiveSQL解析JSON数据详解+代码实战

JSON文件存储格式十分常见,在各个数据库中以及业务场景都有关于该文件的处理方式。但是有时候处理JSON文件在不同的数据库处理方法也不同,掌握一些高效的函数可以大大简化我们处理JSON数据格式的效率。面对一些复杂的存储形式,例如JSON数组存储这种就必须采取一定的处理方式,下面是处理HiveSQL解

Hive DML常见操作

Hive DML常见操作

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈