Spark追妻系列(Spark初了解)
感觉每天又有了希望,又有动力,感觉学习尽头十足Spark是什么Spark是一个用来实现快速而通用的集群计算的平台。在之前,学习了MR,学习了hadoop,用mapreduce来对数据进行处理,但是hadoop是用批处理的,而且还有延迟,况且,出来了Hive,Hive将sql转化为mr算子。可以不用去
Hive hql 经典5道面试题
最近在深入了解Hive,尚硅谷的这5道题很经典,有引导意义,分步解题也很有用,故记录之,方便回看1.连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量找出连续 3 天及以上减少碳排放量在 100 以上的用户id dt lowcarbon1001 2021-12-12 1231002 2021-12-
hive中多表full join主键重复问题
目录0. 其他1. 问题描述2. 问题复现2.1. 建表语句2.2. 插入数据2.3. 查询SQL以及问题3. 问题原因4. 问题解决0. 其他1. 问题描述在Hive中(其他类似SQL,比如PostgreSQL可能也存在此问题),当对多张表(3张及以上)进行full join时,会存在每张表的主键
hive_实现ip的十进制和点分十进制(xxx.xxx.xxx.xxx)之间的相互转换
hive实现ip的十进制和点分十进制(xxx.xxx.xxx.xxx)之间相互转换
hive函数 next_day
hive函数-next_daynext_day 下周几next_day (date,char) 取当前天的下一个周一例子 select next_day(‘2021-12-30’,‘MO’);-- 2022-01-03下周一next_day(‘2020-06-14’, ‘mon’)本周一date_s
hive metastore配置kerberos认证
hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是不需要进行认证就可以访问的。所以本文基于大数据组件中流行的kerberos认证方式,对hive metastore进行认
SQLDeveloper连接Hive使用说明
SQLDeveloper连接Hive使用说明
大数据高级开发工程师——工作流调度器Azkaban(1)
文章目录工作流调度器AzkabanAzkaban介绍为什么需要工作流调度系统工作流调度实现方式Azkaban简介Azkaban架构Azkaban基本架构Azkaban架构的三种运行模式1. solo server mode(单机模式)2. two server mode3. multiple exe
大数据高级开发工程师——大数据相关工具之一 Sqoop
文章目录数据导入导出工具Sqoop ETL工具Sqoop简介Sqoop1与Sqoop2架构对比Sqoop安装部署Sqoop的数据导入1. 列出所有数据库2. 准备表数据3. 导入数据库表数据到HDFS4. 导入到HDFS指定目录5. 导入到hdfs指定目录并指定字段之间的分隔符6. 导入关系表到HI
更新后-Hive免费版本2.1 报错问题收集
目前还不够全面,慢慢记录2021-12-24 Error while compiling statement: FAILED: SemanticException [Error 10002]: line **Invalid column reference ''错误显示是无效的行,一度怀疑自己查询和
Zeppelin安装配置
目录1.Zeppelin安装 利用Zeppelin工具操作hive,需确保电脑已经启动Hadoop集群和hiveserver2服务。 在master主机上的hive安装目录下启动hiveserver2服务[root@master hive]#bin/hiveserver21. Zeppel
使用DBeaver远程连接hive数据库
1.DBeaver连接hive数据库时需要先在服务器启动hive的metastore服务和hiveserver2服务[root@node2 ~]# nohup bin/hive --service metastore &[root@node2 ~]# nohup bin/hive --ser
读完本篇文章就会掌握hive over窗口函数的使用附带习题
前言:我们在学习hive窗口函数的时候,一定要先了解窗口函数的结构。而不是直接百度sum() over()、row_number() over()、或者count() over()的用法,如果这样做,永远也掌握不到窗口函数的核心,当然我刚开始的时候也是这样做的。还好我比较顽强,在HIVE窗口函数问题