spark3.3.1 for CDH6.3.2 打包
因为 CDH 在 6.3.2 之后开始收费,而自带的spark版本太低,还阉割了 spark-sql 功能。所以我们直接外挂spark3.3.1,使用 CDH 6.3.2 相关的 hadoop lib。
HDFS基础知识(个人总结)
声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章  
(面试经典问题)HDFS上传文件(写)流程
HDFS写流程详述,以及面试如何回答
Hadoop命令大全
hadoop fs -count [-h] (-h 参数使用便于操作人员读取单位信息格式)- hadoop fs 可操作任意文件系统,不仅仅是hdfs文件系统,使用范围更广。5.count:命令用于统计指定目录下的目录数、文件数、字节数。4.-df:统计文件系统的容量、可用空间和已用空间信息。-
sparkSQL连接hive失败案例和解决办法
sparkSQL连接hive失败案例和解决办法
HDFS完全分布式集群搭建与配置
HDFS完全分布式集群搭建与配置
Hive知识梳理
Hive是建立在 Hadoop 上的数据仓库基础构架。可以将SQL查询转换为MapReduce的job在Hadoop集群上执行。
【Hadoop】HDFS高可用与高扩展原理分析(HA架构与Federation机制)
通俗的讲,集群启动时DataNode会向NameNode上报所有的Block块信息,每个块(无论大小)对象约占150byte,而NameNode的内存是有限的,当HDFS文件愈来愈多的时候,NameNode就会成为集群的短板(这也是为什么HDFS不适合存储小文件的原因)。图中的Zookeeper是为
dolphinscheduler 3.0.1 资源中心
资源中心通常用于上传文件、UDF 函数和任务组管理。对于 standalone环境,可以选择本地文件目录作为上传文件夹(此操作不需要Hadoop部署)。当然,你也可以 选择上传到 Hadoop 或者 MinIO 集群。在这种情况下,您需要有 Hadoop(2.6+)或 MinION 等相关环境。
基于Hadoop的电商用户分析系统
电商用户分析系统是为了更精准的为用户推荐他们想要的内容,如果一个用户在浏览商品信息的时候,通过对用户数据的记录,和已经存在的其他的用户记录进行分析,从而为用户推荐相应的数据。本次毕业设计的课题是基于Hadoop的电商用户用户行为的分析系统,那么研究的方向就是大数据中的Hadoop方向,在我的课题中我
hadoop基础搭建(hadoop+hive+hbase+zk)(一)
关于hadoop的基础搭建
大数据Flink进阶(三):Flink核心特性
另外,Flink通过序列化/反序列化方法将所有的数据对象转换成二进制在内存中存储,降低数据存储的大小的同时,能够更加有效地对内存空间进行利用,降低GC带来的性能下降或任务异常的风险,因此Flink较其他分布式处理的框架会显得更加稳定,不会因为JVM GC等问题而影响整个应用的运行。在流处理应用中,数
Hadoop之Mapreduce序列化
反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为什么要序列化:一般来说,“活的”对象只生存在内存里,关机断 电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程
猿创征文|Hadoop大数据技术综合实验
Hadoop大数据技术综合实验:网站访问日志采集、处理及分析
2.Hadoop环境配置之虚拟机安装配置
虚拟机下载安装配置和克隆
Hadoop 完全分布式搭建(超详细)
到此为止,我们的 Hadoop 完全分布式就已经搭建完成啦!
大数据核心技术是什么
大数据的核心层:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同本质上的角色都大同小异。数据采集的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些简单的清洗。数据源的种类比较多:网站日志:作为互联网行业,网站日志占的份额最大,网站日志存储在多台网站日志服务
hive数据倾斜(超详细)
说到hive的数据倾斜,可能有的小伙伴还不了解什么是数据倾斜,所以咱们这一次就从hive数据倾斜的表现、hive数据倾斜发生的原因、hive数据倾斜的解决方案这三个方面来聊一聊hive的数据倾斜。
Hadoop安装搭建伪分布式教程(全面)吐血整理
Hadoop安装搭建伪分布式教程(全面)吐血整理1、安装下载虚拟机VMware2、下载Ubuntu18.04镜像文件,并在VMware中添加虚拟机。3、Hadoop伪分布式搭建3.1 创建hadoop用户,并更新ubuntu系统中相应软件,安装vim编辑器3.1.1 创建hadoop账户3.1.2
基于Hadoop的电商广告点击数的分析与可视化(Shell脚本执行与大屏可视化设计)
本项目需要部署的可以私信博主!!!!!!!!!本文介绍了基于Hadoop的电商广告点击数的分析与可视化,以及相应的Shell脚本执行和大屏可视化设计。首先,我们介绍了Hadoop的基本原理和使用方法,包括如何安装和配置Hadoop集群。然后,我们介绍了如何使用Hadoop MapReduce框架对电