金融风控实战——Hive详解(数据读取、预处理、特征工程)

大数据技术介绍大数据技术的介绍:  1、存储,我们需要了解在大数据的架构下,数据大致是怎么进行存储的,传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是用户在实际的应用中,看到的是一

【大数据】Hive可视化工具dbeaver

Hive可视化工具dbeaver1、dbeaver基本介绍dbeaver是一个图形化的界面工具,专门用于与各种数据库的集成,通过dbeaver我们可以与各种数据库进行集成通过图形化界面的方式来操作我们的数据库与数据库表,类似于我们的sqlyog或者navicat。2、下载dbeaver我们可以直接从

Spark追妻系列(Spark初了解)

感觉每天又有了希望,又有动力,感觉学习尽头十足Spark是什么Spark是一个用来实现快速而通用的集群计算的平台。在之前,学习了MR,学习了hadoop,用mapreduce来对数据进行处理,但是hadoop是用批处理的,而且还有延迟,况且,出来了Hive,Hive将sql转化为mr算子。可以不用去

Hive hql 经典5道面试题

最近在深入了解Hive,尚硅谷的这5道题很经典,有引导意义,分步解题也很有用,故记录之,方便回看1.连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量找出连续 3 天及以上减少碳排放量在 100 以上的用户id dt lowcarbon1001 2021-12-12 1231002 2021-12-

hive中多表full join主键重复问题

目录0. 其他1. 问题描述2. 问题复现2.1. 建表语句2.2. 插入数据2.3. 查询SQL以及问题3. 问题原因4. 问题解决0. 其他1. 问题描述在Hive中(其他类似SQL,比如PostgreSQL可能也存在此问题),当对多张表(3张及以上)进行full join时,会存在每张表的主键

hive_实现ip的十进制和点分十进制(xxx.xxx.xxx.xxx)之间的相互转换

hive实现ip的十进制和点分十进制(xxx.xxx.xxx.xxx)之间相互转换

hive函数 next_day

hive函数-next_daynext_day 下周几next_day (date,char) 取当前天的下一个周一例子 select next_day(‘2021-12-30’,‘MO’);-- 2022-01-03下周一next_day(‘2020-06-14’, ‘mon’)本周一date_s

hive metastore配置kerberos认证

hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是不需要进行认证就可以访问的。所以本文基于大数据组件中流行的kerberos认证方式,对hive metastore进行认

SQLDeveloper连接Hive使用说明

SQLDeveloper连接Hive使用说明

大数据高级开发工程师——工作流调度器Azkaban(1)

文章目录工作流调度器AzkabanAzkaban介绍为什么需要工作流调度系统工作流调度实现方式Azkaban简介Azkaban架构Azkaban基本架构Azkaban架构的三种运行模式1. solo server mode(单机模式)2. two server mode3. multiple exe

大数据高级开发工程师——大数据相关工具之一 Sqoop

文章目录数据导入导出工具Sqoop ETL工具Sqoop简介Sqoop1与Sqoop2架构对比Sqoop安装部署Sqoop的数据导入1. 列出所有数据库2. 准备表数据3. 导入数据库表数据到HDFS4. 导入到HDFS指定目录5. 导入到hdfs指定目录并指定字段之间的分隔符6. 导入关系表到HI

更新后-Hive免费版本2.1 报错问题收集

目前还不够全面,慢慢记录2021-12-24 Error while compiling statement: FAILED: SemanticException [Error 10002]: line **Invalid column reference ''错误显示是无效的行,一度怀疑自己查询和

Zeppelin安装配置

目录1.Zeppelin安装 利用Zeppelin工具操作hive,需确保电脑已经启动Hadoop集群和hiveserver2服务。 在master主机上的hive安装目录下启动hiveserver2服务[root@master hive]#bin/hiveserver21. Zeppel

使用DBeaver远程连接hive数据库

1.DBeaver连接hive数据库时需要先在服务器启动hive的metastore服务和hiveserver2服务[root@node2 ~]# nohup bin/hive --service metastore &[root@node2 ~]# nohup bin/hive --ser

读完本篇文章就会掌握hive over窗口函数的使用附带习题

前言:我们在学习hive窗口函数的时候,一定要先了解窗口函数的结构。而不是直接百度sum() over()、row_number() over()、或者count() over()的用法,如果这样做,永远也掌握不到窗口函数的核心,当然我刚开始的时候也是这样做的。还好我比较顽强,在HIVE窗口函数问题

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈