hadoop生态圈面试精华之Hadoop基础
hadoop生态圈面试精华之Hadoop基础
重磅发布 , 阿里云全链路数据湖开发治理解决方案
阿里云重磅发布全链路数据湖解决方案,主要包含开源大数据平台E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks + 数据湖构建DLF + 对象存储OSS等核心产品。
Hive面试题系列-求用户最大连续活跃天数 2
代码】Hive面试题系列-求用户最大连续活跃天数 2。
大数据异常处理之蓝屏,断电导致mysql异常
大数据异常处理之蓝屏,断电导致mysql异常
集群模式执行Spark程序(第七弹)
打包成功标志: 显示BUILD SUCCESS,可以看到target目录下的2个jar包。读取数据文件,RDD可以简单的理解为是一个集合,集合中存放的元素是String类型。在pom.xml文件中添加所需插件。#先将解压的两个jar包复制出来。把结果数据保存到HDFS上。...
HDFS-学习日记
在尚大的学习的学习笔记。。。
HIVE优化和数据倾斜、合并小文件
HIVE优化和数据倾斜、合并小文件
添加spark的相关依赖和打包插件(第六弹)
可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)可以看到计算出的单词频数itcast(1)Hadoop(1)spark(1)hello(3)
Hive DML常见操作
Hive DML常见操作
H(hadoop&code&notebook).数据压缩
表-3优缺点压缩算法优点缺点gzip压缩率比较高不支持Split;压缩/解压速度一般bzip2压缩率高;支持Split压缩/解压速度慢LZO压缩/解压速度比较快;支持Split压缩率一般;想支持切片,需要额外创建索引Snappy压缩和解压缩速度快不支持Split;压缩率一般。......
Hadoop完全分布式部署
host映射:这里是把三个Linux的ip地址保存到三个虚拟机去,相当于我们自己在手机里面存别人的电话号码 一样的道理,这样相互之间就知道对应ip地址的机器是哪一台。所以这个操作也是要在三台虚拟机都要 进行的。给ip地址起名字,几个机器需要互相连通,这样在连接几台机器的时候只需要使用机器名就行,不需
Kafka在美团数据平台的实践
总第526篇2022年 第043篇Kafka在美团数据平台承担着统一的数据缓存和分发的角色,随着数据量的增长,集群规模的扩大,Kafka面临的挑战也愈发严峻。本文分享了美团Kafka面临的实际挑战,以及美团针对性的一些优化工作,希望能给从事相关开发工作的同学带来帮助或启发。1. 现状和挑战1.1 现
spark集群部署(第三弹)
(1)spark.deploy.recoveryMode=ZOOKEEPER:设置zookeeper去启用备用master模式(2)spark.deploy.zookeeper.url=master:指定zookeeper的server地址(3)spark.deploy.zookeeper.dir:
一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】
一文看懂大数据生态圈完整知识体系
搭建Spark开发环境(第二弹)
😊😊😊欢迎来到本博客😊😊😊本篇介绍的是Spark环境的准备🛠🛠🛠预更新📑:体验第一个Spark程序一.环境准备二·.spark的部署方式三.spark集群安装部署一.环境准备配置环境:Hadoop、spark(本人是2.0.0)、JDK(1.8)、Linux(Centos6.7)
Hadoop运行环境搭建(开发重点三)、在hadoop102安装JDK、配置JDK环境变量、测试JDK是否安装成功
为什么只在hadoop102上安装JDK,因为在hadoop102中安装后将JDK拷贝到hadoop103和hadoop104中,同样后面安装Hadoop的时候也是这样的操作、解压JDK到/opt/module目录下、配置好后需要source一下,重新加载一下内容、在Linux系统下的opt目录中查
HIVE高级调优(四)
HIVE高级调优
Hadoop——Hadoop优势、组成、大数据技术生态体系、系统框架图
HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。在本地文件系统存储文件块数据,以及块数据的校验和。每隔一段时间对NameNo
Hadoop运行环境搭建(开发重点)、VMware 安装
推荐的软件为VMware,VMware可以使用户在一台计算机上同时运行多个操作系统,还可以像Windows应用程序一样来回切换。用户可以如同操作真实安装的系统一样操作虚拟机系统,甚至可以在一台计算机上将几个虚拟机系统连接为一个局域网或者连接到互联网。一台电脑本身是可以装多个操作系统的,但是做不到多个
CDH/CDP 是什么?
CDH ( Cloudera Distribution Hadoop )是 Cloudera 公司提供的包含 Apache Hadoop 及其相关项目的软件发行版本。CDP(Cloudera Data Platform)是 CDH 的继任者。CDP 是面向企业的云计算平台。