SQL实现将多行记录合并成一行
SQL实现将多行记录合并成一行
Spark面试题——Spark小文件问题及解决方案
Spark小文件问题及解决方案
Hive增加列,调整列顺序,属性名等操作
hive添加字段到指定位置先添加字段到最后位置再移动到指定位置
Hive截取指定位子或字符后面的数据
Hive截取指定字符后面的数据,博客中分别介绍了三种不同的方法,其中包含substr()函数,instr()函数,字符串反转函数reverse(),regexp_extract()正则匹配函数,split()分割函数的使用
Hive之Map常用方法
实际工作中,有时会出现map复杂数据类型,字段field1形式如:{‘k0’:‘abc’,‘k1’:‘01,02,03’,‘k2’:‘456’},如果是string形式,我们可以适用get_json_object 函数,取出对应的value值,具体如:get_json_object(field,‘$
今天又get到一个小技能,collect_set函数
collect_set函数今天又get到一个小技能,掌握了hive一个关于列转行专用函数 collect_set函数。在这里做个学习笔记。collect_set是Hive内置的一个聚合函数, 结果返回一个消除了重复元素的对象集合, 其返回值类型是 array 。和collect_set相似的还有另一
hive 日期和时间戳互相转化
一 . 日期转时间戳1 unix_timestamp()获取当前时间戳select unix_timestamp(); --16364622392 unix_timestamp() 输入日期参数 输入的时间格式必须符合 yyyy-MM-dd HH:mm:ssselect unix_timestamp
hive函数——greatest、least 多列取最大最小值
hive函数——greatest、least 多列取最大最小值
大数据知识面试题-Hive (2022版)
Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式在创建表时指定数据中的分隔符,Hive 就可以映射成功,解析数据。Hive中包含以下数据模型:**db:**在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹**table:**在hdfs中表现所属
Zookeeper02:Zookeeper安装部署【单机】
一、Zookeeper的安装部署针对Zookeeper前期不需要掌握太多,只需要掌握Zookeeper的安装部署以及它的基本操作即可。Zookeeper也支持单机和集群安装,建议大家在学习阶段使用单机即可,单机和集群在操作上没有任何区别。在这里我们会针对单机和集群这两种方式分别演示一下。二、Zook
Hive的查询基本操作
Hive的查询基础操作和各运算符
hive表 desc 描述元信息获取(java hive jdbc)
java hive jdbc一次性获取hive表数据在hdfs中的location位置、或者获取hive的文件存储格式、使用的压缩算法,甚至是表中的字段类型、字段注释、字段约束、表中是否有数据、数据大小、文件数等信息。
MySQL中存储的数据查询的时候区分大小写问题
涉及字符串的各种运算其核心必然涉及到采用何种字符排序规则(COLLATE,也有翻译为"核对")。本质上 MySQL 是通过 COLLATE 取值决定字符串运算是否大小写敏感。`utf8_general_ci` 是一个具体的 COLLATE 取值。每个具体的 COLLATE 都对应唯一的字符集,可以看
hive中字符串查找函数 instr 和 locate
可用于优化join or关联匹配情况
2022数据血缘关系详解
2022数据血缘关系详解
安装datagrip以及datagrip连接hive
介绍:DataGrip 出自JetBrains公司,是一款跨平台的数据库管理客户端工具,可在Windows,OS X 和 Linux上使用;同时支持多种数据库:SQL Server, Oracle, PostgreSQL, MySQL, DB2, Sybase, SQLite, Derby, Hyp
hive-动态分区Dynamic Partition
com往分区表插数据时,需要指定分区。这样一次只能插入一个分区。如果插入数据分散在多个分区中,就要通过动态分区功能,自动创建分区并填充。参数配置在使用动态分区之前,我们要进行一些参数的配置.hive.exec.dynamic.partition默认值:false是否开启动态分区功能,默认false关
Hive数据类型
Hive数据类型支持的类型原始数据类型注意DATE类型整数类型小数、Boolean、二进制文本类型时间类型类型转换隐式转换显示转换(CAST函数)复杂数据类型详解ARRAY和MAPSTRUCTUNION实例支持的类型hive支持两种数据类型:原始数据类型、复杂数据类型原始数据类型原始数据类型包括数据
Hudi 0.12.0 搭建——集成 Hive3.1 与 Spark3.2
Hudi 默认依赖的 Hadoop 为 Hadoop2.x,要兼容 Hadoop3.x,则需要修改 Hudi 源码。找到镜像依赖配置,添加新的下载依赖,我这里选用的阿里云依赖,必须放在第一个,否则不会起作用。找到镜像属性配置的那里,添加镜像,我这里选用的阿里云镜像。文件中的大约第 110 行中的参数
spark读取数据写入hive数据表
pyspark 从已有数据表读取数据写入目标hive表的代码模板