Hadoop - overfit.cn

关于分布式计算数据倾斜的杂谈

overfit同步小助手 2023-03-28 20:05:23 0 收藏

hive面试题

以第一个表的分区规则，来对应第二个表的分区规则，将第一个表的所有分区，全部拷贝到第二个表中来，第二个表在加载数据的时候，不需要指定分区了，直接用第一个表的分区即可。元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；当发生

overfit同步小助手 2023-03-28 20:05:20 0 收藏

关于hive的启动和连接

关于hadoop启动，hive的启动和连接。

overfit同步小助手 2023-03-28 20:05:15 0 收藏

基于Linux的Hadoop伪分布式安装

【大数据技术2】：基于Linux的Hadoop伪分布式安装。主要内容包含：创建用户、安装ssh、安装vim、安装JDK并配置环境变量、安装Hadoop、hadoop伪分布式配置以及启动HDFS伪分布式模式。

overfit同步小助手 2023-03-28 20:05:12 0 收藏

大数据测试

什么是大数据测试大数据测试通常是指对采用大数据技术的系统或应用的测试。大数据测试可以分为两个维度，一个维度是数据测试，另一个维度是大数据系统测试和大数据应用产品测试。数据测试：主要关注数据的完整性、准确性和一致性等。大数据系统测试和大数据应用产品测试：这里的大数据系统一般是指使用hado

overfit同步小助手 2023-03-28 19:05:16 0 收藏

hadoop调优(二)

NameNode进程挂了并且存储数据丢失了，如何恢复NameNode？如果NameNode进程挂掉并且数据丢失了，可以利用Secondary NameNode来恢复NameNode。Secondary NameNode主要用于备份NameNode的编辑日志和文件系统镜像，以便在NameNode失败时

overfit同步小助手 2023-03-28 19:05:09 0 收藏

云栖大会|小米大数据运维管理体系的建设与实践

小米大数据运维管理体的建设与实践

overfit同步小助手 2023-03-28 16:04:34 0 收藏

Linux（阿里云）安装Hadoop(详细教程+避坑)

overfit同步小助手 2023-03-27 04:03:55 0 收藏

Ubuntu下搭建Hadoop分布式集群

应学校课程要求，这学期学习到了云计算与大数据，这次实验就是让我们在ubuntu中配置好hadoop分布式集群，这两天就从网上一边各种搜寻教程结合课本（课本上是使用的centos，而且版本较老，不太适用）一边自己动手做，顺便自己也写一篇教程记录一下，其中也包含一些遇到的问题及解决方法。因为第一次接触到

overfit同步小助手 2023-03-25 08:03:48 0 收藏

大数据 | Hadoop集群搭建（完全分布式）

一学就会，Hadoop完全分布式（集群）搭建

overfit同步小助手 2023-03-25 08:03:37 0 收藏

大数据之Hadoop图解概述

文章目录1 Hadoop是什么2 Hadoop 发展历史（了解）3 Hadoop 三大发行版本（了解）3.1 Apache Hadoop（常用）3.2 Cloudera Hadoop3.3 Hortonworks Hadoop4 Hadoop 优势（4 高）5 Hadoop 组成（面试重点）5.1

overfit同步小助手 2023-03-24 16:04:18 0 收藏

spark3.3.1 for CDH6.3.2 打包

因为 CDH 在 6.3.2 之后开始收费，而自带的spark版本太低，还阉割了 spark-sql 功能。所以我们直接外挂spark3.3.1，使用 CDH 6.3.2 相关的 hadoop lib。

overfit同步小助手 2023-03-23 21:05:07 0 收藏

HDFS基础知识(个人总结)

    声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章           &nbsp

overfit同步小助手 2023-03-23 21:04:46 0 收藏

（面试经典问题）HDFS上传文件（写）流程

HDFS写流程详述，以及面试如何回答

overfit同步小助手 2023-03-23 20:04:40 0 收藏

Hadoop命令大全

hadoop fs -count [-h] (-h 参数使用便于操作人员读取单位信息格式)- hadoop fs 可操作任意文件系统，不仅仅是hdfs文件系统，使用范围更广。5.count：命令用于统计指定目录下的目录数、文件数、字节数。4.-df：统计文件系统的容量、可用空间和已用空间信息。-

overfit同步小助手 2023-03-23 20:04:28 0 收藏

sparkSQL连接hive失败案例和解决办法

overfit同步小助手 2023-03-23 19:05:21 0 收藏

HDFS完全分布式集群搭建与配置

overfit同步小助手 2023-03-23 19:05:07 0 收藏

Hive知识梳理

Hive是建立在 Hadoop 上的数据仓库基础构架。可以将SQL查询转换为MapReduce的job在Hadoop集群上执行。

overfit同步小助手 2023-03-23 19:05:03 0 收藏

【Hadoop】HDFS高可用与高扩展原理分析（HA架构与Federation机制）

通俗的讲，集群启动时DataNode会向NameNode上报所有的Block块信息，每个块（无论大小）对象约占150byte，而NameNode的内存是有限的，当HDFS文件愈来愈多的时候，NameNode就会成为集群的短板（这也是为什么HDFS不适合存储小文件的原因）。图中的Zookeeper是为

overfit同步小助手 2023-03-23 19:04:41 0 收藏

dolphinscheduler 3.0.1 资源中心

资源中心通常用于上传文件、UDF 函数和任务组管理。对于 standalone环境，可以选择本地文件目录作为上传文件夹（此操作不需要Hadoop部署）。当然，你也可以选择上传到 Hadoop 或者 MinIO 集群。在这种情况下，您需要有 Hadoop（2.6+）或 MinION 等相关环境。

overfit同步小助手 2023-03-23 18:05:37 0 收藏