大数据 Hadoop - overfit.cn

标题提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、实验目的二、实验平台三. 实验内容和要求（1）编程实现文件合并和去重操作（2）编写程序实现对输入文件的排序（3）对给定的表格进行信息挖掘四、实验遇到的问题一、实验目的1.通过实验掌握基本的MapReduce编程方法；2.

overfit同步小助手 2022-11-08 11:39:47 0 收藏

大数据ClickHouse进阶（二十二）：ClickHouse优化

在Hive中对于日期数据我们经常使用String类型存储，但是在ClickHouse中建表时针对日期类型数据存储建议使用日期类型存储，不使用String类型存储，因为在使用到日期时日期类型可以直接处理，String类型的日期数据还需要使用函数进行处理，执行效率低。

overfit同步小助手 2022-11-06 13:36:34 0 收藏

大数据知识面试题-通用（2022版）

序列号内容链接1大数据知识面试题-通用（2022版）待续…2大数据知识面试题-Hadoop（2022版）待续…3大数据知识面试题-MapReduce和yarn（2022版）待续…4大数据知识面试题-Zookeepr （2022版）待续…5大数据知识面试题-Hive （2022版）待续…6大数据知识面

overfit同步小助手 2022-11-02 13:21:58 0 收藏

Ubuntu下搭建Hadoop分布式集群

应学校课程要求，这学期学习到了云计算与大数据，这次实验就是让我们在ubuntu中配置好hadoop分布式集群，这两天就从网上一边各种搜寻教程结合课本（课本上是使用的centos，而且版本较老，不太适用）一边自己动手做，顺便自己也写一篇教程记录一下，其中也包含一些遇到的问题及解决方法。因为第一次接触到

overfit同步小助手 2022-11-02 10:23:33 0 收藏

Hadoop安装搭建伪分布式教程（全面）吐血整理

Hadoop安装搭建伪分布式教程（全面）吐血整理1、安装下载虚拟机VMware2、下载Ubuntu18.04镜像文件，并在VMware中添加虚拟机。3、Hadoop伪分布式搭建3.1 创建hadoop用户，并更新ubuntu系统中相应软件，安装vim编辑器3.1.1 创建hadoop账户3.1.2

overfit同步小助手 2022-11-02 07:22:30 0 收藏

Hadoop中的Yarn的Tool接口案例、Yarn 案例实操（四）

注意此时提交的3个参数，第一个用于生成特定的Tool，第二个和第三个为输入输出目录。注：以上操作全部做完过后，快照回去或者手动将配置文件修改成之前的状态，因为本身资源就不够，分成了这么多，不方便以后测试。自己写的程序也可以动态修改参数。编写Yarn的Tool接口。期望可以动态传参，结果报错，误认为是

overfit同步小助手 2022-11-02 07:22:04 0 收藏

Hadoop中的Yarn 生产环境核心参数配置案例、Yarn 案例实操（一）

因为在java8只使用java堆里面的内存，而centos7.0以上使用linux系统为java进程预留的5G，实际使用的内存还不超过4g，所以会造成大量的浪费，因此要关闭虚拟内存。然后进行分发一下，如果集群的配置不同，假如hadoop102是i7，hadoop103是i3，则尽量不使用分发，而是一

overfit同步小助手 2022-11-02 07:21:34 0 收藏

Ubuntu下单机安装Hadoop详细教程（附所需安装包下载）

目录前言一、创建Hadoop用户二、更新apt和安装Vim编辑器三、安装SSH和配置SSH无密码登录四、安装Java环境1. 安装JDK2. 配置JDK环境3. 检验安装五、安装单机Hadoop1. 下载安装Hadoop2. 运行示例总结前言本文安装的 Hadoop 及 Java 环境基于林子雨老师

overfit同步小助手 2022-11-02 06:21:21 0 收藏

大数据技术之Hadoop（入门）概述、运行环境搭建、运行模式

文章目录1 Hadoop 概述1.1 Hadoop 是什么1.2 Hadoop 优势1.3 Hadoop 组成1.3.1 HDFS 架构概述2 组管理和权限管理2.1 组管理2.2 权限管理3 任务调度1 Hadoop 概述1.1 Hadoop 是什么（1）Hadoop是一个由Apache基金会所开

overfit同步小助手 2022-11-02 03:21:11 0 收藏

Hadoop集群安装和搭建（全面超详细的过程）

Hadoop集群安装和搭建（全面完整的详细过程）文章目录Hadoop集群安装和搭建（全面完整的详细过程）前言一、虚拟机的安装二、Linux系统安装1.环境准备2.虚拟机安装总结前言Hadoop是一个开源的、可运行与Linux集群上的分布式计算平台，用户可借助Hadoop存储和分析大数据。本项目包含的

overfit同步小助手 2022-11-02 02:21:10 0 收藏

esProc SPL为何备受青睐，Hadoop Spark 太重？

Hadoop Spark 太重，esProc SPL 很轻

overfit同步小助手 2022-11-02 00:21:08 0 收藏

大数据学习的第一课-大数据概论和技术原理

大数据(Big Data)，指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。采用分步式的方式存储数据时，要考虑数据复制时一致性问题，数据复制与一致性基本原则和设计理念CAP 、A

overfit同步小助手 2022-11-01 21:21:41 0 收藏

【Hadoop配置】用最短的时间配置伪分布式Hadoop（个人亲身经历）

2022.10.26晚进行实验时，需要使用到hdfs上传文件，但是半年没用过虚拟机了，忘记了hadoop的安装位置，导致无法启动节点，于是将虚拟机上的原hadoop文件夹删除，将hadoop用户删除，重新配置了hadoop，为帮助遇到类似问题的小伙伴，同时也做一个记录以备我需要时查阅，特此记录全过程

overfit同步小助手 2022-10-28 07:22:31 0 收藏

使用MapReduce求ncdc气象数据中的最低温度

overfit同步小助手 2022-10-27 07:22:46 0 收藏

大数据开发——Hive实战案例

[hadoop全分布部署]安装Hadoop、配置Hadoop 配置文件①

[hadoop全分布部署]虚拟机Hadoop集群交换 SSH 密钥与验证SSh无密码登录

Hadoop集群搭建（超级超级详细）

[Hive]一篇带你读懂Hive是什么

[Hadoop全分布部署]安装JDK、Hadoop

大数据 MapReduce编程实践（1）编程实现文件合并和去重操作