Hive(23):Select高级查询之SORT/ORDER/CLUSTER/DISTRIBUTE BY

order by会对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。sort by不是全局排序,其在数据进入reducer前完成排序。因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1,则sort by只保证每个reduce

Hadoop: High Available

即HDFS 支持一主一备的架构最多支持 5 个,官方推荐使用 3 个基于Hadoop3.x. 总的来说就是要借助Zookeeper来实现高可用,然后就是编辑Hadoop的配置文件已实现高可用[email protected]

大数据平台环境搭建

大数据平台环境搭建(最详细最全面最无脑)

Hive Code2报错排查

大多数可能的code2报错一般是内存不够,所以加下面这个配置可以有效解决这个问题#取消小表加载至内存中但这个不一定是因为内存不够,其实很多错误都是报这种官方错误的,所以一定要去yarn上看日志。很多人看日志也找不到问题,因为并没有看到全部日志,翻到最底下,点击check here 才能看到完整日志。

HDFS基本操作命令

命令:hadoop fs -getmerge [-n1] [-skip-empty-file]-p选项的行为与unix mkdir -p非常相似,他会沿着路径创建父目录。下载文件到本地文件系统指定目录,localdst必须是目录。和-put功能一样,只不过上传结束,源数据会被删除。-p保留访问和修改

Kerberos安全认证-连载10-Hive Kerberos 安全配置及访问

技术连载系列,前面内容请参考前面连载9内容:​​​​​​​Hive底层数据存储在HDFS中,HQL执行默认会转换成MR执行在Yarn中,当HDFS配置了Kerberos安全认证时,只对HDFS进行认证是不够的,因为Hive作为数据仓库基础架构也需要访问HDFS上的数据。因此,为了确保整个大数据环境的

bash: 未预期的符号 `newline‘ 附近有语法错误——解决方法

bash: 未预期的符号 `newline' 附近有语法错误

构建大数据环境:Hadoop、MySQL、Hive、Scala和Spark的安装与配置

安装Hadoop 首先,从Apache Hadoop的官方网站下载所需的Hadoop发行版。选择适合你系统的二进制发行版,下载完成后解压缩到安装目录。然后配置环境变量,并修改Hadoop的配置文件,根据需要进行修改。安装MySQL 安装MySQL服务器是搭建大数据环境的重要一步。更新包管理器后,执行

hive之with as 和 create temporary区别

在写hivesql语句时,通常因为实现一个比较复杂的逻辑时。

大数据:Hadoop HDFS,基础架构,去中心化,中心化模式,HDFS基础架构,虚拟机和云服务器部署HDFS

大数据:Hadoop HDFS,基础架构,去中心化,中心化模式,HDFS基础架构,虚拟机和云服务器部署HDFS

Hive中的HASH函数规则及示例

Hive中的哈希函数采用的是MurmurHash算法,这是一种非常高效的哈希算法。该算法将输入数据分为若干个块,每个块都进行哈希计算,最终将所有块的哈希值合并起来得到最终的哈希值。在执行上述查询语句时,Hive会自动调用HASH函数对每个姓名进行哈希计算,并将具有相同哈希值的姓名放入同一个分组中,最

分布式文件系统与HDFS的shell操作及查看元数据

分布式文件系统与HDFS的shell操作及查看元数据

HDFS面试(自己学习版)

大:设置太大,磁盘传输时间明显大于定位块的时间,因为块大了,块总数就相对少了,寻址时间相对少很多,而块过大,磁盘传输时间变大。与寻址时间有关:默认寻址时间为传输时间的百分之一为最优。小:块总数变多,寻址时间增大了。1s*磁盘传输速率就是块大小。假设10ms找到目标,

Hadoop 实战实例

​Hadoop是GoogleMapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样,MapReduce的run-time系统会解决输入数据的分布细节,跨越机器集群的程序执行

Hadoop高可用(HA)集群搭建

查看namenode节点状态:hdfs haadmin -getServiceState nn1|nn2。这里装了四台机器,ant151,ant152,ant153,ant154。恢复ant152的namenode进程。rm1状态:standby。kill掉active进程。rm2状态:active

windows环境hadoop报错‘D:\Program‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件。

错误:windows环境hadoop报错’D:\Program’ 不是内部或外部命令,也不是可运行的程序 或批处理文件。错误方法:(1)配置HADOOP_HOME环境变量时,将路径中的Program Files修改为Progra~1,以便系统识别,无效(2)将地址中的D:/Program Files

ALTER TABLE 分区操作-动态增加一级,多级分区,动态删除分区

1.8.5.6 ALTER TABLE 分区操作alter 分区操作包括增加分区和删除分区操作,这种分区操作在Spark3.x之后被支持,spark2.4版本不支持,并且使用时,必须在spark配置中加入spark.sql.extensions属性,其值为:org.apache.iceberg.sp

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

大数据篇 | Hadoop、HDFS、HIVE、HBase、Spark之间的联系与区别

分布式文件系统使用——MinIO

分布式文件系统使用——MinIO

Hive调优之计算资源配置(一)

hive调优

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈