大数据技术之Hive
大数据技术之Hive
hive中判断一个字符串是否包含另一个子串的四种方法,sql中也可用
hive中判断一个字符串是否包含另一个子串的四种方法如果你有一个数据需求,需要从一个字段中,判断是否有一个字符串,你该怎么做一、方法1:like和rlike最能想到的方法,用like或者rlikeselect "i want to touch fish" like("%fish%");那么rlike
SparkSQL知识点总结
零基础学sparksql
数仓之hive自定义UDTF函数详解
自定义UDTF函数
hive 内置时间函数datediff,这次总算搞清楚了
刚接触数仓时,对hive中sql内置的一些时间函数的用法总是用的模糊两可,每次需要用到的是总是得查api,今天把这3个容易出错的日期内置函数简单总结下,算是一次学习笔记,加深印象,后面需要用到的时候就不用再去翻看api了。1.日期比较函数datediff语法:datediff(string endd
Hive 多数组合并 CONCAT_WS
Hive 多数组合并 使用CONCAT_WS和split 完成多个数组合成一个数组
Hive查看表大小(所占的磁盘空间大小)
查看该hive表的总容量大小 单位为G[root@hadoop225 ~]$ hadoop fs -du /user/hive/warehouse/src.db/user/user_account|awk ' { SUM += $1 } END { print SUM/(1024*1024*1024
大数据工程师的日常工作内容是干嘛?
我们真的是Sqlboy吗?
基于Hadoop的数据分析案例-陌陌聊天软件数据分析
目录前言一、使用的工具二、分析步骤1.数据来源2.数据内容分析3.加载数据4.数据清洗ETL5.数据分析总结前言本文章针对陌陌软件进行数据分析。一、使用的工具Vmware Workstation Pro Centos 7 64bit FinalShell 3.9.2.2 DataGrip 2020.
如何根据Hive SQL代码生成Datahub数据集及血缘
识别、解析Hive、PG SQL代码,自动生成Datahub 表级、字段级血缘
hive 增加字段 修改注释
hive 增加字段 修改注释
SQL实现将多行记录合并成一行
SQL实现将多行记录合并成一行
Spark面试题——Spark小文件问题及解决方案
Spark小文件问题及解决方案
Hive增加列,调整列顺序,属性名等操作
hive添加字段到指定位置先添加字段到最后位置再移动到指定位置
Hive截取指定位子或字符后面的数据
Hive截取指定字符后面的数据,博客中分别介绍了三种不同的方法,其中包含substr()函数,instr()函数,字符串反转函数reverse(),regexp_extract()正则匹配函数,split()分割函数的使用
Hive之Map常用方法
实际工作中,有时会出现map复杂数据类型,字段field1形式如:{‘k0’:‘abc’,‘k1’:‘01,02,03’,‘k2’:‘456’},如果是string形式,我们可以适用get_json_object 函数,取出对应的value值,具体如:get_json_object(field,‘$
今天又get到一个小技能,collect_set函数
collect_set函数今天又get到一个小技能,掌握了hive一个关于列转行专用函数 collect_set函数。在这里做个学习笔记。collect_set是Hive内置的一个聚合函数, 结果返回一个消除了重复元素的对象集合, 其返回值类型是 array 。和collect_set相似的还有另一
hive 日期和时间戳互相转化
一 . 日期转时间戳1 unix_timestamp()获取当前时间戳select unix_timestamp(); --16364622392 unix_timestamp() 输入日期参数 输入的时间格式必须符合 yyyy-MM-dd HH:mm:ssselect unix_timestamp
hive函数——greatest、least 多列取最大最小值
hive函数——greatest、least 多列取最大最小值
大数据知识面试题-Hive (2022版)
Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式在创建表时指定数据中的分隔符,Hive 就可以映射成功,解析数据。Hive中包含以下数据模型:**db:**在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹**table:**在hdfs中表现所属