大数据 Hadoop - overfit.cn

Ubuntu下搭建Hadoop分布式集群

应学校课程要求，这学期学习到了云计算与大数据，这次实验就是让我们在ubuntu中配置好hadoop分布式集群，这两天就从网上一边各种搜寻教程结合课本（课本上是使用的centos，而且版本较老，不太适用）一边自己动手做，顺便自己也写一篇教程记录一下，其中也包含一些遇到的问题及解决方法。因为第一次接触到

overfit同步小助手 2023-03-25 08:03:48 0 收藏

大数据 | Hadoop集群搭建（完全分布式）

一学就会，Hadoop完全分布式（集群）搭建

overfit同步小助手 2023-03-25 08:03:37 0 收藏

大数据之Hadoop图解概述

文章目录1 Hadoop是什么2 Hadoop 发展历史（了解）3 Hadoop 三大发行版本（了解）3.1 Apache Hadoop（常用）3.2 Cloudera Hadoop3.3 Hortonworks Hadoop4 Hadoop 优势（4 高）5 Hadoop 组成（面试重点）5.1

overfit同步小助手 2023-03-24 16:04:18 0 收藏

spark3.3.1 for CDH6.3.2 打包

因为 CDH 在 6.3.2 之后开始收费，而自带的spark版本太低，还阉割了 spark-sql 功能。所以我们直接外挂spark3.3.1，使用 CDH 6.3.2 相关的 hadoop lib。

overfit同步小助手 2023-03-23 21:05:07 0 收藏

HDFS基础知识(个人总结)

    声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章           &nbsp

overfit同步小助手 2023-03-23 21:04:46 0 收藏

（面试经典问题）HDFS上传文件（写）流程

HDFS写流程详述，以及面试如何回答

overfit同步小助手 2023-03-23 20:04:40 0 收藏

Hadoop命令大全

hadoop fs -count [-h] (-h 参数使用便于操作人员读取单位信息格式)- hadoop fs 可操作任意文件系统，不仅仅是hdfs文件系统，使用范围更广。5.count：命令用于统计指定目录下的目录数、文件数、字节数。4.-df：统计文件系统的容量、可用空间和已用空间信息。-

overfit同步小助手 2023-03-23 20:04:28 0 收藏

sparkSQL连接hive失败案例和解决办法

overfit同步小助手 2023-03-23 19:05:21 0 收藏

HDFS完全分布式集群搭建与配置

overfit同步小助手 2023-03-23 19:05:07 0 收藏

Hive知识梳理

Hive是建立在 Hadoop 上的数据仓库基础构架。可以将SQL查询转换为MapReduce的job在Hadoop集群上执行。

overfit同步小助手 2023-03-23 19:05:03 0 收藏

【Hadoop】HDFS高可用与高扩展原理分析（HA架构与Federation机制）

通俗的讲，集群启动时DataNode会向NameNode上报所有的Block块信息，每个块（无论大小）对象约占150byte，而NameNode的内存是有限的，当HDFS文件愈来愈多的时候，NameNode就会成为集群的短板（这也是为什么HDFS不适合存储小文件的原因）。图中的Zookeeper是为

overfit同步小助手 2023-03-23 19:04:41 0 收藏

dolphinscheduler 3.0.1 资源中心

资源中心通常用于上传文件、UDF 函数和任务组管理。对于 standalone环境，可以选择本地文件目录作为上传文件夹（此操作不需要Hadoop部署）。当然，你也可以选择上传到 Hadoop 或者 MinIO 集群。在这种情况下，您需要有 Hadoop（2.6+）或 MinION 等相关环境。

overfit同步小助手 2023-03-23 18:05:37 0 收藏

基于Hadoop的电商用户分析系统

电商用户分析系统是为了更精准的为用户推荐他们想要的内容，如果一个用户在浏览商品信息的时候，通过对用户数据的记录，和已经存在的其他的用户记录进行分析，从而为用户推荐相应的数据。本次毕业设计的课题是基于Hadoop的电商用户用户行为的分析系统，那么研究的方向就是大数据中的Hadoop方向，在我的课题中我

overfit同步小助手 2023-03-23 18:05:04 0 收藏

hadoop基础搭建（hadoop+hive+hbase+zk）（一）

关于hadoop的基础搭建

overfit同步小助手 2023-03-23 18:04:48 0 收藏

大数据Flink进阶（三）：Flink核心特性

另外，Flink通过序列化/反序列化方法将所有的数据对象转换成二进制在内存中存储，降低数据存储的大小的同时，能够更加有效地对内存空间进行利用，降低GC带来的性能下降或任务异常的风险，因此Flink较其他分布式处理的框架会显得更加稳定，不会因为JVM GC等问题而影响整个应用的运行。在流处理应用中，数

overfit同步小助手 2023-03-22 08:04:10 0 收藏

Hadoop之Mapreduce序列化

反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。为什么要序列化：一般来说，“活的”对象只生存在内存里，关机断电就没有了。而且“活的”对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象，可以将“活的”对象发送到远程

overfit同步小助手 2023-03-22 08:03:42 0 收藏

猿创征文｜Hadoop大数据技术综合实验

Hadoop大数据技术综合实验：网站访问日志采集、处理及分析

overfit同步小助手 2023-03-21 05:04:06 0 收藏

2.Hadoop环境配置之虚拟机安装配置

虚拟机下载安装配置和克隆

overfit同步小助手 2023-03-17 15:04:13 0 收藏

Hadoop 完全分布式搭建（超详细）

到此为止，我们的 Hadoop 完全分布式就已经搭建完成啦！

overfit同步小助手 2023-03-16 08:03:59 0 收藏

大数据核心技术是什么

大数据的核心层：数据采集层、数据存储与分析层、数据共享层、数据应用层，可能叫法有所不同本质上的角色都大同小异。数据采集的任务就是把数据从各种数据源中采集和存储到数据存储上，期间有可能会做一些简单的清洗。数据源的种类比较多：网站日志：作为互联网行业，网站日志占的份额最大，网站日志存储在多台网站日志服务

overfit同步小助手 2023-03-14 11:04:13 0 收藏