Hadoop - overfit.cn

大数据ClickHouse进阶（二十二）：ClickHouse优化

在Hive中对于日期数据我们经常使用String类型存储，但是在ClickHouse中建表时针对日期类型数据存储建议使用日期类型存储，不使用String类型存储，因为在使用到日期时日期类型可以直接处理，String类型的日期数据还需要使用函数进行处理，执行效率低。

overfit同步小助手 2022-11-06 13:36:34 0 收藏

大数据知识面试题-通用（2022版）

序列号内容链接1大数据知识面试题-通用（2022版）待续…2大数据知识面试题-Hadoop（2022版）待续…3大数据知识面试题-MapReduce和yarn（2022版）待续…4大数据知识面试题-Zookeepr （2022版）待续…5大数据知识面试题-Hive （2022版）待续…6大数据知识面

overfit同步小助手 2022-11-02 13:21:58 0 收藏

Ubuntu下搭建Hadoop分布式集群

应学校课程要求，这学期学习到了云计算与大数据，这次实验就是让我们在ubuntu中配置好hadoop分布式集群，这两天就从网上一边各种搜寻教程结合课本（课本上是使用的centos，而且版本较老，不太适用）一边自己动手做，顺便自己也写一篇教程记录一下，其中也包含一些遇到的问题及解决方法。因为第一次接触到

overfit同步小助手 2022-11-02 10:23:33 0 收藏

Hadoop安装搭建伪分布式教程（全面）吐血整理

Hadoop安装搭建伪分布式教程（全面）吐血整理1、安装下载虚拟机VMware2、下载Ubuntu18.04镜像文件，并在VMware中添加虚拟机。3、Hadoop伪分布式搭建3.1 创建hadoop用户，并更新ubuntu系统中相应软件，安装vim编辑器3.1.1 创建hadoop账户3.1.2

overfit同步小助手 2022-11-02 07:22:30 0 收藏

Hadoop中的Yarn的Tool接口案例、Yarn 案例实操（四）

注意此时提交的3个参数，第一个用于生成特定的Tool，第二个和第三个为输入输出目录。注：以上操作全部做完过后，快照回去或者手动将配置文件修改成之前的状态，因为本身资源就不够，分成了这么多，不方便以后测试。自己写的程序也可以动态修改参数。编写Yarn的Tool接口。期望可以动态传参，结果报错，误认为是

overfit同步小助手 2022-11-02 07:22:04 0 收藏

Hadoop中的Yarn 生产环境核心参数配置案例、Yarn 案例实操（一）

因为在java8只使用java堆里面的内存，而centos7.0以上使用linux系统为java进程预留的5G，实际使用的内存还不超过4g，所以会造成大量的浪费，因此要关闭虚拟内存。然后进行分发一下，如果集群的配置不同，假如hadoop102是i7，hadoop103是i3，则尽量不使用分发，而是一

overfit同步小助手 2022-11-02 07:21:34 0 收藏

Ubuntu下单机安装Hadoop详细教程（附所需安装包下载）

目录前言一、创建Hadoop用户二、更新apt和安装Vim编辑器三、安装SSH和配置SSH无密码登录四、安装Java环境1. 安装JDK2. 配置JDK环境3. 检验安装五、安装单机Hadoop1. 下载安装Hadoop2. 运行示例总结前言本文安装的 Hadoop 及 Java 环境基于林子雨老师

overfit同步小助手 2022-11-02 06:21:21 0 收藏

大数据技术之Hadoop（入门）概述、运行环境搭建、运行模式

文章目录1 Hadoop 概述1.1 Hadoop 是什么1.2 Hadoop 优势1.3 Hadoop 组成1.3.1 HDFS 架构概述2 组管理和权限管理2.1 组管理2.2 权限管理3 任务调度1 Hadoop 概述1.1 Hadoop 是什么（1）Hadoop是一个由Apache基金会所开

overfit同步小助手 2022-11-02 03:21:11 0 收藏

Hadoop集群安装和搭建（全面超详细的过程）

Hadoop集群安装和搭建（全面完整的详细过程）文章目录Hadoop集群安装和搭建（全面完整的详细过程）前言一、虚拟机的安装二、Linux系统安装1.环境准备2.虚拟机安装总结前言Hadoop是一个开源的、可运行与Linux集群上的分布式计算平台，用户可借助Hadoop存储和分析大数据。本项目包含的

overfit同步小助手 2022-11-02 02:21:10 0 收藏

esProc SPL为何备受青睐，Hadoop Spark 太重？

Hadoop Spark 太重，esProc SPL 很轻

overfit同步小助手 2022-11-02 00:21:08 0 收藏

大数据学习的第一课-大数据概论和技术原理

大数据(Big Data)，指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。采用分步式的方式存储数据时，要考虑数据复制时一致性问题，数据复制与一致性基本原则和设计理念CAP 、A

overfit同步小助手 2022-11-01 21:21:41 0 收藏

【Hadoop配置】用最短的时间配置伪分布式Hadoop（个人亲身经历）

2022.10.26晚进行实验时，需要使用到hdfs上传文件，但是半年没用过虚拟机了，忘记了hadoop的安装位置，导致无法启动节点，于是将虚拟机上的原hadoop文件夹删除，将hadoop用户删除，重新配置了hadoop，为帮助遇到类似问题的小伙伴，同时也做一个记录以备我需要时查阅，特此记录全过程

overfit同步小助手 2022-10-28 07:22:31 0 收藏

使用MapReduce求ncdc气象数据中的最低温度

overfit同步小助手 2022-10-27 07:22:46 0 收藏

HDFS的API操作

通过Java API访问HDFS实现1、创建目录2、创建文件3、读取文件内容4、文件的删除5、文件的上传6、文件的下载7、列表显示指定目录下的文件和子目录信息8、复制文件9、重命名文件操作。

overfit同步小助手 2022-10-27 07:22:33 0 收藏

Hadoop完全分布式集群搭建 centos 6.5（保姆级教程）

hadoop完全分布式集群搭建的过程

overfit同步小助手 2022-10-25 07:22:43 0 收藏

Linux下编写shell脚本一键启动HBase

zookeeper启动、停止脚本。hadoop启动、停止脚本。hbase启动、停止脚本

overfit同步小助手 2022-10-24 07:22:35 0 收藏

想了解流计算？你必须得看一眼，实现Flink on Yarn的三种部署方式，并运行wordcount计算任务

想了解流计算，你必须得看一眼，实现Flink on Yarn的三种部署方式，并运行wordcount,7000字奉上

overfit同步小助手 2022-10-24 07:22:32 0 收藏

Hive group by 数据倾斜问题处理

发现一个10.19号的任务下午还没跑完，正常情况下，一般一个小时就已经跑完，而今天已经超过3小时了，因此去观察实际的任务，发现9个map 其中8个已经完成，就一个还在run，说明有明显的数据倾斜。在一小时内结束，并且没有哪个节点耗时较长。发现有使用group by。

overfit同步小助手 2022-10-22 07:23:01 0 收藏

Hadoop2.0高可用集群搭建【保姆级教程】

Hadoop高可用集群搭建

overfit同步小助手 2022-10-16 08:03:00 0 收藏

[Spark、hadoop]Spark Streaming整合kafka实战

Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写，是一个基于Zookeeper系统的分布式发布订阅消息系统，该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。①、Kafka的众多优点：其优点具体：(1)解耦。Kafka 具备消息系

overfit同步小助手 2022-10-15 08:02:36 0 收藏