Flink ON YARN
Flink ON YARN 模式就是使用客户端的方式,直接向Hadoop集群提交任务即可,不需要单独启动Flink进程。
大数据基础考试复习(考试前不停更)——《大数据技术与原理应用》
小题:文章目录小题:选择:判断:填空:大题一、简答题1、Hadoop 生态及各部分的作用2、HDFS的实现目标3、FsImage和EditLog的过程4、HDFS读数据的过程5、HBase Region的定位方式6、MapReduce运行流程7、简述Map函数和Reduce函数的功能二、实验题三、综
利用Docker快速部署hadoop、hive和spark
文章目录一、配置文件yml1.docker-compose.yml二、执行脚本1.启动脚本run.sh2.关闭脚本stop.sh一、配置文件yml1.docker-compose.ymlversion: '3.4' services: namenode: image: test/hadoop
CENTOS上的网络安全工具(二十四)Windows下的Hadoop+Spark编程环境构建
前面我们搭建了hadoop集群,spark集群,也利用容器构建了spark的编程环境。但是一般来说,就并行计算程序的开发,一刚开始一般是在单机上的,比如hadoop的single node。但是老师弄个容器或虚拟机用vscode远程访问式开发,终究还是有些不爽。还好,hadoop和spark都是支持
大数据框架之Hive: 第7章 综合案例练习(初级)
大数据框架之Hive: 第7章 综合案例练习(初级)
Hadoop基本操作
Hadoop基本操作方法
hadoop无法访问9870端口
首先查看一下防火墙是否关闭。今天连接Hadoop端口的时候,发现9870端口无法连上。查看了下进程,都已经成功启动。根据自己的host映射。
Hadoop之MapReduce概述
Hadoop之mapreduce概述,描述相关工作机制和原理
Hbase,Hive和Hdfs的关系以及区别
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。hive可以用来进行统计查询,HBase可以用来进行实时查询,数据也可以从Hive写到Hbase,设置再从Hbase写回Hive。
Hbase
Hbase 的扩展性主要体现在两个方面,一个是基于运算能力(RegionServer) 的扩展,通过增加 RegionSever 节点的数量,提升 Hbase 上层的处理能力;HBase擅长于存储结构简单的海量数据但索引能力有限,而Oracle,mysql等传统关系型数据库(RDBMS)能够提供丰富
Hadoop DataNode不能启动,不能全部启动
可以查看一下{hadoop文件路径}/etc/hadoop/slaves这个文件,这个文件是集群里所有DataNode的主机名,如果缺少某一个主机名,不能全部启动,将全部要启动datanode的主机名加入即可。目前有三台主机,配置如下:在hadoop102主机上执行启动脚本(自定义脚本或者start
hive分区表之insert overwrite 注意事项
比如跑上月的数据最开始有44条记录,后面业务说不对,应该一条都没有的,结果你重跑了,确实跑出了0条记录,但是你插入的时候就是不能覆盖。所以这里有个注意事项!如果我们建立了一个分区表,如果每个月都要更新数据,不要因为省事就是用动态分区插入。但是今天遇到一个问题,如果我查询的数据=0,那么数据还会覆盖么
Hadoop启动正常,能ping通,无法打开hadoop102:9870
浏览器无法打开hadoop102:9870。
实验5 MapReduce初级编程实践(3)——对给定的表格进行信息挖掘
一、实验目的通过实验掌握基本的MapReduce编程方法;掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。二、实验平台操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04)Hadoop版本:3.1.3三、实验内容对给定的表格进行信息挖掘下面
Spark 从入门到精通
spark 从入门到精通 从spark集群搭建 到 案例spark core spark streaming sparkSQL
大数据实战(hadoop+spark+python):淘宝电商数据分析
利用docker部署hadoop,spark分布式环境,配合python对淘宝100万条数据进行分析
hadoop报错:没有那个文件或目录
hadoop报错:没有那个文件或目录
DBeaver同时执行多条insert into报错处理
DBeaver同时执行多条insert into报错处理
大数据项目实战——基于某招聘网站进行数据采集及数据分析(二)
大数据项目实战第二章 搭建大数据集群环境文章目录大数据项目实战学习目标一、安装准备二、使用步骤1.引入库2.读入数据总结学习目标了解虚拟机的安装和克隆熟悉虚拟机网络配置和 SSH 服务配置掌握 Hadoop 集群的搭建熟悉 Hive 的安装掌握 Sqoop 的安装搭建大数据集群环境是开发本项目的基础
虚拟机时间不同步如何解决?
hadoop三台服务器时间不同步