大数据 Hadoop - overfit.cn

[零基础]用docker搭建Hadoop集群

[零基础]用docker搭建Hadoop集群，每一步都有详细的解释！

overfit同步小助手 2023-02-13 23:04:10 0 收藏

Hadoop集群搭建

Hadoop官方网站：http://hadoop.apache.org/Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别

overfit同步小助手 2023-02-13 08:04:13 0 收藏

Hadoop三大框架

Hadoop三大框架：HDFS、MapReduce、Yarn

overfit同步小助手 2023-02-11 17:04:11 0 收藏

Hive最全总结，学习与面试，收藏这一篇就够了！

UDF：用户自定义函数，user defined function。一对一的输入输出。UDTF：用户自定义表生成函数。user defined table-generate function.一对多的输入输出。UDAF：用户自定义聚合函数。user defined aggregate functio

overfit同步小助手 2023-02-11 03:04:07 0 收藏

ssh: connect to host localhost port 22: Connection refused

今天本机安装hadoop 时，遇到一个问题，配置 ssh 登录权限失败xxx@yyy:/opt/hadoop$ ssh localhostssh: connect to host localhost port 22: Connection refused百度搜索了好多文章都没能搞定，最后还是通过 b

overfit同步小助手 2023-02-11 02:04:05 0 收藏

DBeaver连接hive（详细图解）

dbeaver是免费和开源（GPL）为开发人员和数据库管理员通用数据库工具。易用性是该项目的主要目标，是经过精心设计和开发的数据库管理工具。免费、跨平台、基于开源框架和允许各种扩展写作（插件）。它支持任何具有一个JDBC驱动程序数据库。它可以处理任何的外部数据源。

overfit同步小助手 2023-02-11 01:04:12 0 收藏

[Spark、hadoop]Spark Streaming整合kafka实战

Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写，是一个基于Zookeeper系统的分布式发布订阅消息系统，该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。①、Kafka的众多优点：其优点具体：(1)解耦。Kafka 具备消息系

overfit同步小助手 2023-02-10 16:04:45 0 收藏

描述大数据的技术生态？Hadoop、Hive、Spark 之间是什么关系

作者：小怪兽链接：https://www.zhihu.com/question/27974418/answer/1862026844来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。1Hadoop只是一套工具的总称，它包含三部分：HDFS，Yarn，MapReduce，功

overfit同步小助手 2023-02-10 16:04:00 0 收藏

解决Ubuntu20.04网络配置的问题

在Ubuntu20.04版本中，没有/etc/network/interfaces文件，而是使用/etc/netplan/01-network-manager-all.yaml文件配置网络

overfit同步小助手 2023-02-10 15:04:13 0 收藏

大数据基准测试工具HiBench部署与测试

本文介绍了大数据基准测试工具HiBench的部署，并进行了测试。欢迎大家交流讨论！

overfit同步小助手 2023-02-10 13:04:21 0 收藏

Hadoop（一）Hadoop概述

overfit同步小助手 2023-02-10 13:03:56 0 收藏

数据湖（一）：数据湖概念

数据湖概念一、什么是数据湖数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理，并运行不同类型的分析对数据进行加工，例如：大数据处理、实时分析、机器学习，以指导做出更好地决策。二、大数据为什么需要数据湖当前基

overfit同步小助手 2023-02-10 11:03:53 0 收藏

一零零九、Docker搭建全集群环境配置

Docker搭建全集群环境配置

overfit同步小助手 2023-02-10 09:04:06 0 收藏

使用 Amazon EMR 构建您的数据分析平台

Amazon EMR是云上的数据分析平台，通过 Amazon EMR 的图形化或命令行接口，用户可以快速搭建和部署基于 Amazon EC2 实例的数据分析系统，并能动态扩展集群。Amazon EMR 也可以读写其他 AWS 数据存储服务，例如 Amazon S3 和 Amazon DynamoDB

overfit同步小助手 2023-02-10 09:04:00 0 收藏

[Hadoop全分布部署]安装JDK、Hadoop

JDK全称Java Development Kit 中文意思是Java 开发工具包即java标准版开发包，是Oracle提供的一套用于开发java应用程序的开发包，它提供编译，运行java程序所需要的各种工具和资源，包括java编译器，java运行时环境，以及常用的java类库等。JRE Java

overfit同步小助手 2023-02-10 09:03:50 0 收藏

Hadoop生态之Mapreduce

Hadoop三板斧之青龙偃月刀MapReduce

overfit同步小助手 2023-02-10 08:04:18 0 收藏

30分钟掌握 Hive SQL 优化（解决数据倾斜）

如果joinkey有集中的空值热点值，这些空值会聚集到少数个分区中，导致长尾问题。

overfit同步小助手 2023-02-10 08:03:52 0 收藏

Xshell连接不上虚拟机的解决办法

xshell连接不上虚拟机的方法

overfit同步小助手 2023-02-10 07:04:09 0 收藏

[Hadoop全分布部署]配置网络(IP、网关和DNS等)和防火墙

配置网络(IP、网关和DNS等)和防火墙1.1 查看服务器的 IP 地址1.2 设置服务器ip地址1.3 重启网络1.4 pingwww.baidu.com看是否能联网1.5 修改服务器的主机名称1.6 绑定主机名与 IP 地址1.7 关闭防火墙1.8 创建hadoop用户

overfit同步小助手 2023-02-10 07:03:57 0 收藏

学完了Hadoop，我总结了这些重点

大数据生态圈中最基础、最重要的组件。大数据小菜鸟迈出的第一步！

overfit同步小助手 2023-02-10 05:04:00 0 收藏