【hive】hive分桶表的学习
每一个表或者分区,hive都可以进一步组织成桶,桶是更细粒度的数据划分,他本质不会改变表或分区的目录组织方式,他会改变数据在文件中的分布方式。
探索数据湖中的巨兽:Apache Hive分布式SQL计算平台浅度剖析!
对数据进行统计分析,SQL是目前最为方便的编程工具大数据体系中充斥着非常多的统计分析场景,所以,使用SQL去处理数据,在大数据中也是有极大的需求的MapReduce支持程序开发(Java、Python等),但不支持SQL开发Apache Hive是一款分布式SQL计算的工具将SQL语句 翻译成Map
Hive 处理 13 位时间戳,得到年月日时分秒(北京时间)
Hive 处理 13 位时间戳,得到年月日时分秒(北京时间)使用 Hive 自带函数 将 13位 时间戳: 1682238448915 转成 今天的时间(北京时间),格式样例:'2023-04-23 16:27:28'
【Hive/Spark】常见参数配置
(用于spark3中字段类型不匹配(例如datetime无法转换成date),消除sql中时间歧义,将Spark .sql. LEGACY . timeparserpolicy设置为LEGACY来恢复Spark 3.0之前的状态来转化)(4)set spark.sql.finalStage.adap
【大数据之Hive】二十五、HQL语法优化之小文件合并
小文件优化可以从两个方面解决,在Map端输入的小文件合并,在Reduce端输出的小文件合并。
Hive 的 UDF 函数(Python 版本)
Python 实现 Hive 的 UDF 函数其实非常的简单
Hive 和 HDFS、MySQL 之间的关系
Hive 使用 HDFS 作为其底层数据存储,将数据存储在 HDFS 中的文件和目录中,然后执行查询以从 HDFS 中检索和处理数据。在大数据环境中,MySQL 可能用于存储与 Hive 相关的元数据,例如 Hive 表的定义、分区信息和其他元数据。当用户将数据加载到 Hive 表时,数据通常会存储
Hive 数据仓库介绍
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。
基于华为云的在线拍卖数据分析
基于华为云服务器,实现在线数据拍卖分析萌新初次使用云服务器搭建Hadoop文件系统,使用Hive操作数据库,进行数据预测
Zeppelin(0.10.1版本)安装及创建hive解释器
在zepplin 使用hive解释器
hive/spark数据倾斜解决方案
数据倾斜主要表现在,mapreduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条Key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致
大数据之使用Spark全量抽取MySQL的数据到Hive数据库
使用了spark对MySQL的数据进行操作并保存到了hive数据库,原理大同小异,spark提供了许多api供我们使用,非常的方便和灵活。本题来源于全国职业技能大赛之大数据技术赛项赛题-离线数据处理-数据抽取题目:编写Scala代码,使用Spark将MySQL的shtd_industry库中表Env
HiveSQL刷题
现有各直播间的用户访问记录表(live_events)如下,表中每行数据表达的信息为,一个用户何时进入了一个直播间,又在何时离开了该直播间。
【大数据之Hive】四、配置Hive元数据存储到MySQL
需求:把Hive元数据写道MySQL的metastore数据库中(MySQL默认没有metastore数据库,需要提前创建:create database metastore;连接地址:jdbc:mysql//hadoop102:3306/metastore驱动:com.mysql.cj.jdbc.
Hive的更新和删除
更新数据: Hive中的更新操作实际上是替换记录的过程。删除数据: 在Hive中,您可以使用DELETE语句删除表中的数据。但是,与传统的关系型数据库不同,Hive实际上并不删除数据,而是将其标记为已删除。但是,这些操作的执行方式与传统的关系型数据库不同,因为Hive使用Hadoop的MapRedu
华为云云耀云服务器L实例评测|在Docker环境下部署Hive数据库
这是Maynor华为云云耀云服务器L实例评测|单节点环境下部署ClickHouse21.1.9.41数据库华为云云耀云服务器L实例评测|伪分布式环境下部署hadoop2.10.1华为云云耀云服务器L实例评测|在Docker环境下部署Hadoop云耀云服务器L实例是新一代的轻量应用云服务器
Hive中hash函数及md5函数
该算法将输入数据分为若干个块,每个块都进行哈希计算,最终将所有块的哈希值合并起来得到最终的哈希值。参数2: 224, 256, 384, 512, 或 0(=256)中的一个,表示SHA-224, SHA-256, SHA-384, SHA-512。由于哈希函数的特性,相同的输入数据每次计算得到的哈
Hive导入csv文件示例
关键是要引入org.apache.hadoop.hive.serde2.OpenCSVSerdecsv要保存到hive的parquet,需要先保存成textfile。
Hive 分区表新增字段 cascade
Hive 分区表新增字段 cascade
大数据平台搭建之hive本地模式安装
hive的基本介绍,hive的架构,hive的本地模式搭建