Hudi入门到实战
Hudi入门到实战
SparkSQL
大数据自学笔记——spark学习笔记
Hive环境搭建(保姆级教程)
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。本文将详细介绍Hive的本地安装模式的具体过程。
Hive数据仓库---Hive的安装与配置
Hive的安装与配置
大数据之Hive:regexp_extract函数
目录一、正则的通配符简介1、正则表达式的符号及意义2、各种操作符的运算优先级:二、regexp_extract函数一、正则的通配符简介1、正则表达式的符号及意义符号含义实列/做为转意,即通常在"/"后面的字符不按原来意义解释如" * “匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了
Apache Doris 系列: 入门篇-数据导入及查询
Doris 为了满足不同业务场景的数据接入需求,提供不丰富的数据导入方式,去支持不同的数据源:外部存储(HDFS,对象存储)、本地文件、消息队列(Kafka)及其他外部业务系统数据库(MySQL、Oracle、SQLServer、PostgreSQL等),支持同步和异步的方式将数据接入到 Doris
Hadoop、HDFS、Hive、Hbase之间的关系
Hbase:是一款基于HDFS的数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。Hive:用户
Hive与HBase的区别及应用场景
Hive和Hbase的区别
2022年全国职业院校技能大赛(高职组)
2022年全国职业院校技能大赛(高职组)
Hive---Hive语法(二)
Hive语法(二)
Hive内部表和外部表的简单区别
Hive外部表和内部表简单区别
大数据NiFi(十九):实时Json日志数据导入到Hive
如果所提供的JsonPath计算为指定的值,JSON的返回类型可以返回"scalar"。当一次性向tail的文件输入多条数据,我们不希望全部json行内容替换成第一行json内容,那么可以将“TailFile”处理器处理的数据直接传递给“ConvertRecord”处理器,将数据由json格式转换成
hive 排序取中间60%数据
NTILE(n),用于将分组数据按照顺序切分成n片,返回当前切片值。将一个有序的数据集划分为多个桶(bucket),并为每行分配一个适当的桶数(切片值,第几个切片,第几个分区等概念)。它可用于将数据划分为相等的小切片,为每一行分配该小切片的数字序号。NTILE不支持ROWS BETWEEN,比如NT
Hive设置连接用户名和密码
当hive客户端搭建起来之后,应用项目远程连接hive需要设置用户名和密码;由于hive默认的用户名和密码都是空的,所以需要我们自定义用户名和密码;首先,添加hive的maven依赖,这儿maven的版本和hive运行的jar版本保持一致,不然容易出问题,hive/lib下查看jar的版本信息。需要
spark sql(五)sparksql支持查询哪些数据源,查询hive与查询mysql的区别
sparksql支持查询的数据源类型,以及查询mysql和查询hive的源码过程简析
Hive 元数据服务 MetaStore
1. 概念MetaSore 是 Hive 元数据存储的地方。Hive 数据库、表、函数等的定义都存储在 MetaStore 中。根据系统配置方式,统计信息和授权记录也可以存储在这。Hive 或者其他执行引擎在运行时可以使用这些数据来确定如何解析,授权以及有效执行用户的查询。MetaStore 分为两
Hive之explode()函数和posexplode()函数和lateral view函数
目录1、explode()函数2、posexplode()函数3、lateral view函数1、explode()函数英文释义:explode() takes in an array (or a map) as an input and outputs the elements of the ar
CDH6.2.1 集成ranger和atlas操作手册
本文档旨在描述相关CDH6.2.1集成ranger和atlas的安装配置操作,便于相关使用人员后参考
Hive 数据倾斜
Hive 数据倾斜
【Hive】基本建库、建表操作
文章目录一、Hive 数据仓库的操作1、创建数据仓库2、查看 db 数据仓库的信息及路径3、删除 db 数据仓库二、Hive 数据表的操作1、创建内部表2、创建内部表3、修改表结构4、删除表5、创建同结构表三、Hive 中数据的导入导出环境准备Hadoop 完全分布式(一主两从即可)MySQL环境、