HDFS的读写流程步骤(附图文解析)
HDFS的写入流程与读取流程,附图文步骤解析
HDFS将普通用户添加到超级用户组
详细讲解普通用户添加至HDFS超级用户组的流程
数据湖架构Hudi(五)Hudi集成Flink案例详解
数据湖架构Hudi(五)Hudi集成Flink案例详解
Hive远程连接设置用户名和密码
hive设置用户名密码
MapReduce介绍及执行过程
mapreduce基本原理及介绍
HADOOP集群大数据词频统计及设计比较(完整教程)
wordcount加了combiner的代码后,运行效率提高了。
【Hadoop/Java】基于HDFS的Java Web网络云盘
基于Hadoop HDFS的Java Web网络云盘
Spark系列(一)spark简介及安装配置
什么是Spark:Spark是一个用于大规模数据处理的统一计算引擎注意:Spark不仅仅可以做类似于MapReduce的离线数据计算,还可以做实时数据计算,并且它还可以实现类似于Hive的SQL计算,等等,所以说它是一个统一的计算引擎内存计算Spark中一个最重要的特性就是基于内存进行计算,从而让它
大数据-hadoop常用命令
hadoop常用命令
Hive 中的各种常用set设置
hive 中的常用set语句设置
大数据平台环境搭建
这段时间基于大数据技术与应用大赛所做的大数据平台环境搭建,原创文章。在自己电脑上搭建过几遍,按照上述笔记搭建没有出现问题。家人们如果在尝试搭建的过程中出现问题可以在下方评论区留言或者私信,我看到后会回复。希望能对有需求的萌新有所帮助。...
HDFS Java API操作(IDEA版)
目标编写Java API来操作HDFS,完成的操作有:文件上传、文件下载、新建文件夹、查看文件、删除文件。前提条件1.Windows下安装好jdk1.82.Windows下安装好maven,这里使用Maven3.6.33.Windows下安装好IDEA,这里使用IDEA20214.Linux下安装好
hadoop 安装与测试
本文需要下载的安装包是Hadoop-3.1.3.tar.gz/jdk-14_linux-x64_bin.tar.gz。将Windows上的安装包上传到Linux上,方式有很多。本文是将安装包通过共享文件夹形式传到虚拟机上的share文件下。登录官网hadoop.apache.org下载安装包。ubu
线上 hive on spark 作业执行超时问题排查案例分享
m分享一个某业务系统的线上 hive on spark 作业在高并发下频现作业失败问题的原因分析和解决方法
Hadoop 简介
Hadoop 生态圈是指围绕 Hadoop 软件框架为核心而出现的越来越多的相关软件框架,这些软件框架和 Hadoop 框架一起构成了一个生机勃勃的 Hadoop 生态圈
Flink on Yarn模式部署
独立(Standalone)模式由 Flink 自身提供资源,无需其他框架,这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。但我们知道,Flink 是大数据计算框架,不是资源调度框架,这并不是它的强项;所以还是应该让专业的框架做专业的事,和其他资源调度框架集成更靠谱。而在目前大数据生态中,
CDH集群集成外部Flink(改进版-与时俱进)
参考文章中,给出的cdh编译后的flink,已经下架,所以我们得想办法,编译。参考别人的文章不可怕,怕的是,不思进取,我们可以参考别人的文章,并且对不足之处,进行改进,将优秀的地方,进行学习,这样我们国家和民族的技术文章和社区,才能不断进步。可能有一天我不干程序员了,但是技术更新了,那时,我也希望,
hadoop 3.x大数据集群搭建系列5-安装Flink
hadoop 大数据平台搭建Flink 大数据平台搭建Flink on yarn
《Hadoop篇》------HDFS与MapReduce
Namenode:接受客户端的请求,维护整个HDFS集群目录树,元数据信息的存储由namenode负责Datanode:主要是负责数据块的存储,定期向namenode汇报block:SecondaryNamenode不是第二个namenode,当namenode宕机时,不能由SecondaryNam
Hadoop集群的搭建(结束)——修改hadoop配置文件以及启动集群服务
(1)修改 hadoop-env.sh 文件(2)修改 yarn-env.sh 文件(3)修改 core-site.xml 文件(4)修改 hdfs-site.xml 文件(5)修改 mapred-site.xml 文件(6)修改 yarn-site.xml 文件(7)修改 masters 文件(8