hadoop简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。主要解决海量数据的存储和海量数据的分析计算问题并行计算的架构分而治之,先分后和。
Hive字符串数组json类型取某字段再列转行
hive 数组 json 列转行
hadoop namenode格式化错误以及启动不了解决方案
hadoop namenode格式化错误以及启动不了解决方案
Error:JAVA_HOME is not set and could not be found
解决办法:打开hadoop/etc/hadoop目录下的文件hadoop-env.sh,将语句“export JAVA_HOME=$JAVA_HOME”修改为“export JAVA_HOME=你的java路径”,比如我是将其修改为“export JAVA_HOME=/usr/lib/jvm/jav
Hadoop 运行环境搭建(开发重点)
Hadoop 运行环境搭建
hadoop报错——ResourceManager无法启动
本次的遇到的问题为启动Hadoop集群后,jps查看进程中,ResourceManage节点没有启动,导致无法访问http://localhost:8088,通过查看ResourceManage的启动日志,日志中给出的错误为,笔者初步判断为yarn-site.xml文件未填写Zookeeper的端口
centos搭建hadoop伪分布式
centos搭建hadoop伪分布式
Hadoop -HDFS常用操作指令
【代码】Hadoop -HDFS常用操作指令。
HDFS的文件块大小(重点)
对于一般硬盘来说,传输速率为100M/s,一般设置块的大小128M,因为128是2的7次方,最接近于100M。比如,块的大小是1TB,传输这个1TB的数据会非常慢,并且程序处理这个1TB的数据时,也非常的慢。不是的,它只占用文件本身大小的空间,其它空间别的文件也可以用,所以这128M的含义是HDFS
VMware搭建Hadoop集群 for Windows(完整详细,实测可用)
hadoop集群搭建,完整详细。
【hadoop】在linux上设置Hadoop的环境变量
2023/7/15
启动 Hadoop 后没有 dataNode 进程
原因:进行 hadoop 格式化的时候没有事先结束所有进程,或者多次进行了 format 导致的 datanode 的 clusterID 和 namenode 的 clusterID 不匹配,从而在启动后没有 datanode 进程。
大数据之hadoop入门
是一个分布式系统架构,Apache基金会所开发的。主要解决海量数据的存储和海量数据的分析计算问题。Hadoop通常指一个更广泛的概念,Hadoop生态圈(Hadoop, Hive, )大数据之父:Doug Cutting,开发了Lucene,一个搜索引擎,类似谷歌搜索引擎。为了在对Lucene进行优
大数据编程实验二:熟悉常用的HDFS操作
实验目的1、理解HDFS在Hadoop体系结构中的角色2、熟悉使用HDFS操作常用的Shell命令3、熟悉HDFS操作常用的Java API实验平台1、操作系统:Windows2、Hadoop版本:3.1.33、JDK版本:1.8。
HIVE中PST, UTC, PRC(CST)时区转换
以上是把PST时间转成PRC时间,其它同理。
3.1 python版MapReduce基础实战
输入文件在你每次点击评测的时候,平台会为你创建,无需你自己创建,只需要启动HDFS,编写python代码即可。
hive数据load到redis
hive数据传到redis
Hive连接异常:无法通过JDBC连接打开客户端传输(JDBC Uri: jdbc:hive2:// 大数据)
总结起来,当遇到"Hive连接报错:Could not open client transport with JDBC Uri: jdbc:hive2:// 大数据"的问题时,我们可以先检查网络连接是否正常,然后确保Hive服务器的配置正确,并确认服务器正在运行。通过提供正确的JDBC连接URI(如
Hive 中 sort by 和 order by 的区别
在 Hive 中,SORT BY和ORDER BY都用于对查询结果进行排序,但它们在实现方式和适用场景上有一些区别。