Hive知识梳理

Hive是建立在 Hadoop 上的数据仓库基础构架。可以将SQL查询转换为MapReduce的job在Hadoop集群上执行。

【Hadoop】HDFS高可用与高扩展原理分析(HA架构与Federation机制)

通俗的讲,集群启动时DataNode会向NameNode上报所有的Block块信息,每个块(无论大小)对象约占150byte,而NameNode的内存是有限的,当HDFS文件愈来愈多的时候,NameNode就会成为集群的短板(这也是为什么HDFS不适合存储小文件的原因)。图中的Zookeeper是为

dolphinscheduler 3.0.1 资源中心

资源中心通常用于上传文件、UDF 函数和任务组管理。对于 standalone环境,可以选择本地文件目录作为上传文件夹(此操作不需要Hadoop部署)。当然,你也可以 选择上传到 Hadoop 或者 MinIO 集群。在这种情况下,您需要有 Hadoop(2.6+)或 MinION 等相关环境。

基于Hadoop的电商用户分析系统

电商用户分析系统是为了更精准的为用户推荐他们想要的内容,如果一个用户在浏览商品信息的时候,通过对用户数据的记录,和已经存在的其他的用户记录进行分析,从而为用户推荐相应的数据。本次毕业设计的课题是基于Hadoop的电商用户用户行为的分析系统,那么研究的方向就是大数据中的Hadoop方向,在我的课题中我

hadoop基础搭建(hadoop+hive+hbase+zk)(一)

关于hadoop的基础搭建

大数据Flink进阶(三):Flink核心特性

另外,Flink通过序列化/反序列化方法将所有的数据对象转换成二进制在内存中存储,降低数据存储的大小的同时,能够更加有效地对内存空间进行利用,降低GC带来的性能下降或任务异常的风险,因此Flink较其他分布式处理的框架会显得更加稳定,不会因为JVM GC等问题而影响整个应用的运行。在流处理应用中,数

Hadoop之Mapreduce序列化

反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为什么要序列化:一般来说,“活的”对象只生存在内存里,关机断 电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程

猿创征文|Hadoop大数据技术综合实验

Hadoop大数据技术综合实验:网站访问日志采集、处理及分析

2.Hadoop环境配置之虚拟机安装配置

虚拟机下载安装配置和克隆

Hadoop 完全分布式搭建(超详细)

到此为止,我们的 Hadoop 完全分布式就已经搭建完成啦!

大数据核心技术是什么

大数据的核心层:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同本质上的角色都大同小异。数据采集的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些简单的清洗。数据源的种类比较多:网站日志:作为互联网行业,网站日志占的份额最大,网站日志存储在多台网站日志服务

hive数据倾斜(超详细)

说到hive的数据倾斜,可能有的小伙伴还不了解什么是数据倾斜,所以咱们这一次就从hive数据倾斜的表现、hive数据倾斜发生的原因、hive数据倾斜的解决方案这三个方面来聊一聊hive的数据倾斜。

Hadoop安装搭建伪分布式教程(全面)吐血整理

Hadoop安装搭建伪分布式教程(全面)吐血整理1、安装下载虚拟机VMware2、下载Ubuntu18.04镜像文件,并在VMware中添加虚拟机。3、Hadoop伪分布式搭建3.1 创建hadoop用户,并更新ubuntu系统中相应软件,安装vim编辑器3.1.1 创建hadoop账户3.1.2

基于Hadoop的电商广告点击数的分析与可视化(Shell脚本执行与大屏可视化设计)

本项目需要部署的可以私信博主!!!!!!!!!本文介绍了基于Hadoop的电商广告点击数的分析与可视化,以及相应的Shell脚本执行和大屏可视化设计。首先,我们介绍了Hadoop的基本原理和使用方法,包括如何安装和配置Hadoop集群。然后,我们介绍了如何使用Hadoop MapReduce框架对电

hadoop的运行模式

目录hadoop的三种运行模式区别:完全分布式运行模式步骤:一,虚拟机准备:二,编写集群分发脚本xsync (1)scp定义: (2)基础语法:(1)按照上述语法进行拷贝jdk(2)按照上述语法拷贝Hadoop(第二种方法)(3)拷贝也可以让Hadoop103操作 从H

(初学者强烈推荐)Ubuntu 配置hadoop 超详细教程(全过程)

本文的教程仅为个人的操作经验所写,每个人下载的版本不一样,所以会出现不同的情况异常等,如有问题可询问博主或百度查找解决方法。

Hadoop面试题及参考答案

整理了一部分hadoop相关的面试题和参考答案,不当之处请大家指正

(超详细) Spark环境搭建(Local模式、 StandAlone模式、Spark On Yarn模式)

Spark环境搭建JunLeon——go big or go home目录Spark环境搭建一、环境准备1、软件准备2、Hadoop集群搭建3、Anaconda环境搭建二、Spark Local模式搭建1、Spark下载、上传和解压2、配置环境变量3、配置Spark配置文件4、测试5、补充:spar

Hadoop的安装与配置(非常重要)

这是以主从模式来运行的,前两个在maser节点上,最后一个在slave节点上。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈