Hive实战:分科汇总求月考平均分

上传数据到hdfs、从hdfs加载数据到hive

Hive字符串截取函数substr详解

Hive中的substr函数可以用来截取字符串的一部分,并返回截取后的结果。该函数有三个参数:第一个参数是要截取的字符串,第二个参数是截取的起始位置(从1开始),第三个参数是截取的长度。注意,如果截取的长度超过了字符串的实际长度,Hive会返回整个字符串。举个例子,假设有一个字符串。

HiveSql语法优化二 :join算法

SMB Map Join同Bucket Map Join一样,同样是利用两表各分桶之间的关联关系,在分桶之间进行join操作,不同的是,分桶之间的join操作的实现原理。SMB Map Join要求,参与join的表均为分桶表,且需保证分桶内的数据是有序的,且分桶字段、排序字段和关联字段为相同字段,

ubuntu22.04下hadoop3.3.6+hbase2.5.6+phoenix5.1.3开发环境搭建

然后把这个合成的jar包复制到想用的机器上的DBeaver的安装目录下的plugins目录下(纯个人喜好,实际放哪儿都行),然后启动dbeaver添加phoenix连接,在出来的配置界面中选择驱动,把这个包添加进去,就可以正常使用了。这里会出现的问题是,执行sqlline.py后长时间卡住不动的现象

Hive实战:学生信息排序

本次实战利用Hive处理HDFS中学生信息数据,通过创建外部表、执行SQL查询及排序操作,展示了Hive对结构化大数据的高效处理能力,包括按年龄降序和性别升序复合排序。该过程旨在深入教学Hive在数据建模、查询与分析中的应用价值。

Hadoop-MapReduce使用说明

MapReduce是一个开源的分布式软件框架,可以让你很容易的编写程序(继承Mapper和Reducer,重写map和reduce方法)去处理大数据。你只需要简单设置下参数提交下,框架会为你的程序安排任务,监视它们并重新执行失败的任务。下面让我们跟着官网来学习下吧。

数仓工具—Hive进阶之StorageHandler(23)

当在Apache Hive中定义和操作表时,涉及到的数据的输入和输出以及数据的序列化和反序列化都需要明确定义,这就是 InputFormat、OutputFormat 和 SerDe 的作用。存储处理程序通过指定合适的 InputFormat、OutputFormat 和 SerDe,定义了与特定存

Hadoop 高可用集群完全分布式安装教程一篇就够用(zookeeper、spark、hbase、mysql、hive)

Hadoop 高可用集群完全分布式安装教程(zookeeper、spark、hbase、mysql、hive)

解决Hive在DataGrip 中注释乱码问题

COLUMNS_V2 表中的 COMMENT 字段存储了 Hive 表所有字段的注释,TABLE_PARAMS 表中的 PARAM_VALUE 字段存储了所有表的注释。数据库中的字符都是通过编码存储的,写入时编码,读取时解码。修改字段编码并不会改变此前数据的编码方式,依然为默认的 latin1,此时

Hadoop-HDFS概览

Hadoop Distributed File System 的缩写,即Hadoop 分布式文件系统。

HDFS常用命令(介绍超详细)

第三步,如何在本地创建readme.txt文件并使用put命令上传到服务端。我们可以看一下是否成功,先看HDFS服务端是否还有readme.txt。第九步,如何将HDFS上readme.txt移动到test文件夹中。首先我们将bigdata.txt拷贝一份命名为hadoop.txt。第十步,如何将H

大数据导论期末复习知识汇总

大数据导论我是按照这个复习的。大数据导论概述、大数据导论核心技术概述、物联网大数据云计算、数据安全与共享、推荐方法等知识汇总

【Hadoop-HDFS分布式文件系统】

本篇详细介绍了HDFS的工作原理,看完这篇文章对HDFS能够有非常深刻的理解与应用。随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一

【HIVE】数据的定义与操作

Hive作为数据仓库,用来存放企业的海量数据,Hive提供了丰富的数据类型,如关系型数据库,且提供了关系型数据库不支持的数据类型。

Hive-concat_ws 详解

该函数将使用指定的分隔符将所有提供的字符串或字符串数组连接在一起。它接受任意数量的参数,并且可以用于连接单个字符串或字符串数组。是 Hive 中的一个函数,用于在给定分隔符的情况下连接字符串数组或字符串。的参数中有 NULL 值,那么连接的结果中将会忽略这些 NULL 值。在上面的示例中,我们使用逗

通过docker-compose安装hadoop

docker-compose的Compose配置文件语法版本有3个版本,分别为1, 2.x 和 3.x。如果不关闭V2版本的话,运行docker-compose命令时会报错:unexpected character “-” in variable name near,执行docker-compose

Hadoop HA部署过程中出现主备namenode或datanode挂掉的问题

在部署Hadoop HA的过程时,当进行到hdfs namenode -format格式化这一步骤时显示查阅多篇文章分析可知其原因是节点之间无法通信,所以无法建立连接。

Hive内核调优(一)

注:CPU时间:表示运行程序所占用服务器CPU资源的时间。用户等待耗时:记录的是用户从提交作业到返回结果期间用户等待的所有时间。

共享单车之数据分析-统计共享单车每天的平均使用时间

任务描述本关任务:使用的对已经存在 Hbase 的共享单车运行数据进行分析,统计共享单车每天的平均使用时间,其中共享单车运行数据在的表中(表结构可在编程要求中进行查看)。相关知识为了完成本关任务,你需要掌握:如何配置的类是运行在上的一个并行计算框架,分为节点和节点。提供了的和两个方法来完成的配置。i

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈