【Hive】各种join连接用法
hive join连接的各种用法
大数据项目中数据倾斜
大数据项目中数据倾斜
【大数据】HDFS、Hive、FTP的内网间的相互传递(附脚本获取数据)
汝之观览,吾之幸也!本文讲解生产中会遇到的问题,一般集群都部署在外网,如果集群部署在内网,那么怎么同步之前的Hive数据到外网,或者两个内网间怎么同步Hive数据,本文主要以shell脚本演示。...
hive统计每五分钟交易量SQL
1,通过函数 floor()、ceil()、date_format()函数分别获取交易时间字段对应的五分总字段。方法二 通过lateral view函数配合explode及split 实现时间列表初始化。
HiveSQL优化技巧总结
基于Hive的开发过程中主要涉及到的可能是SQL优化这块。减少数据量(例如分区、列剪裁)避免数据倾斜(例如加参数、Key打散)避免全表扫描(例如on添加加上分区等)减少job数(例如相同的on条件的join放在一起作为一个任务)
超详细Hive总结!!!
超详细Hive总结!!!快来看
Hive面试题系列-求用户最大连续活跃天数 2
代码】Hive面试题系列-求用户最大连续活跃天数 2。
【SQL解析】- SQL血缘分析实现篇01
SQL血缘解析实战hive血缘解析presto血缘解析表血缘解析字段血缘解析血缘解析生产实践gudusoft血缘解析sqlflow血缘解析druid血缘解析antlr血缘解析
HIVE优化和数据倾斜、合并小文件
HIVE优化和数据倾斜、合并小文件
一文速学-HiveSQL解析JSON数据详解+代码实战
JSON文件存储格式十分常见,在各个数据库中以及业务场景都有关于该文件的处理方式。但是有时候处理JSON文件在不同的数据库处理方法也不同,掌握一些高效的函数可以大大简化我们处理JSON数据格式的效率。面对一些复杂的存储形式,例如JSON数组存储这种就必须采取一定的处理方式,下面是处理HiveSQL解
Hive DML常见操作
Hive DML常见操作
HiveServer2 报错 OutOfMemoryError 解决思路
HiveServer2 报错 OutOfMemoryError 解决思路
flink-sql大量使用案例
本文是 flink sql 的一些使用案例,同时也包括了一些特殊用法展示。
Hive中常用正则表达式的运用
Hive中常用正则表达式的运用
HIVE高级调优(四)
HIVE高级调优
kettle连接sparksql
kettle连接sparksql
Hadoop+hive+flask+echarts大数据可视化项目之系统信息数据上传及上传的底层实现
使用linux定时任务采集系统数据信息,上传到hadoop平台,使用hive进行系统数据的分析,分析的结果以flask接口传送到前端,前端以echarts图表展示。此博文主要针到系统信息数据如何上传到hadoop中去保存。...
大数据开发写sql写烦了,要不要转?
如果说大数据是每天写sql还不太精准(精准的是用各种方式写SQL)当你不创造东西时,你只会根据自己的感觉而不是能力去看待问题。会不会转别的,看个人兴趣,大数据方向还有那么多。瞅瞅方向:如数据分析师、大数据开发工程师、大数据分析师、数据开发工程师、大数据架构师、大数据运维工程师、ELT工程师、数据仓库
Hadoop生态之Hive(一)
数仓工具之Hive,深度解析Hive结构以及原理
Hive基础02、安装Hive
由于命名不合适,所以更换一下:完整配置文件百度网盘下载链接:5、创建hive环境变量输入以下内容,先按【i】 进入输入模式。【esc】+【:wq】保存并退出。执行脚本6、复制MySQL的驱动包到hive的lib文件夹下 5、初始元数据仓库在【/opt/soft/hive/bin】成功........