关于分布式计算数据倾斜的杂谈

关于分布式计算数据倾斜的杂谈

hive面试题

以第一个表的分区规则,来对应第二个表的分区规则,将第一个表的所有分区,全部拷贝到第二个表中来,第二个表在加载数据的时候,不需要指定分区了,直接用第一个表的分区即可。元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;当发生

关于hive的启动和连接

关于hadoop启动,hive的启动和连接。

基于Linux的Hadoop伪分布式安装

【大数据技术2】:基于Linux的Hadoop伪分布式安装。主要内容包含:创建用户、安装ssh、安装vim、安装JDK并配置环境变量、安装Hadoop、hadoop伪分布式配置以及启动HDFS伪分布式模式。

大数据测试

什么是大数据测试 大数据测试通常是指对采用大数据技术的系统或应用的测试。大数据测试可以分为两个维度,一个维度是数据测试,另一个维度是大数据系统测试和大数据应用产品测试。数据测试: 主要关注数据的完整性、准确性和一致性等。大数据系统测试和大数据应用产品测试: 这里的大数据系统一般是指使用hado

hadoop调优(二)

NameNode进程挂了并且存储数据丢失了,如何恢复NameNode?如果NameNode进程挂掉并且数据丢失了,可以利用Secondary NameNode来恢复NameNode。Secondary NameNode主要用于备份NameNode的编辑日志和文件系统镜像,以便在NameNode失败时

云栖大会|小米大数据运维管理体系的建设与实践

小米大数据运维管理体的建设与实践

Linux(阿里云)安装Hadoop(详细教程+避坑)

Linux(阿里云)安装Hadoop(详细教程+避坑)

Ubuntu下搭建Hadoop分布式集群

应学校课程要求,这学期学习到了云计算与大数据,这次实验就是让我们在ubuntu中配置好hadoop分布式集群,这两天就从网上一边各种搜寻教程结合课本(课本上是使用的centos,而且版本较老,不太适用)一边自己动手做,顺便自己也写一篇教程记录一下,其中也包含一些遇到的问题及解决方法。因为第一次接触到

大数据 | Hadoop集群搭建(完全分布式)

一学就会,Hadoop完全分布式(集群)搭建

大数据之Hadoop图解概述

文章目录1 Hadoop是什么2 Hadoop 发展历史(了解)3 Hadoop 三大发行版本(了解)3.1 Apache Hadoop(常用)3.2 Cloudera Hadoop3.3 Hortonworks Hadoop4 Hadoop 优势(4 高)5 Hadoop 组成(面试重点)5.1

spark3.3.1 for CDH6.3.2 打包

因为 CDH 在 6.3.2 之后开始收费,而自带的spark版本太低,还阉割了 spark-sql 功能。所以我们直接外挂spark3.3.1,使用 CDH 6.3.2 相关的 hadoop lib。

HDFS基础知识(个人总结)

    声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识 内容详细全面, 言辞官方的文章           &nbsp

(面试经典问题)HDFS上传文件(写)流程

HDFS写流程详述,以及面试如何回答

Hadoop命令大全

hadoop fs -count [-h] (-h 参数使用便于操作人员读取单位信息格式)- hadoop fs 可操作任意文件系统,不仅仅是hdfs文件系统,使用范围更广。5.count:命令用于统计指定目录下的目录数、文件数、字节数。4.-df:统计文件系统的容量、可用空间和已用空间信息。-

sparkSQL连接hive失败案例和解决办法

sparkSQL连接hive失败案例和解决办法

HDFS完全分布式集群搭建与配置

HDFS完全分布式集群搭建与配置

Hive知识梳理

Hive是建立在 Hadoop 上的数据仓库基础构架。可以将SQL查询转换为MapReduce的job在Hadoop集群上执行。

【Hadoop】HDFS高可用与高扩展原理分析(HA架构与Federation机制)

通俗的讲,集群启动时DataNode会向NameNode上报所有的Block块信息,每个块(无论大小)对象约占150byte,而NameNode的内存是有限的,当HDFS文件愈来愈多的时候,NameNode就会成为集群的短板(这也是为什么HDFS不适合存储小文件的原因)。图中的Zookeeper是为

dolphinscheduler 3.0.1 资源中心

资源中心通常用于上传文件、UDF 函数和任务组管理。对于 standalone环境,可以选择本地文件目录作为上传文件夹(此操作不需要Hadoop部署)。当然,你也可以 选择上传到 Hadoop 或者 MinIO 集群。在这种情况下,您需要有 Hadoop(2.6+)或 MinION 等相关环境。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈