使用docker安装分布式hadoop(阿里hadoop镜像)
前面使用了docker自带的镜像安装,那么这篇使用阿里镜像搭建hadoop集群,也参考了网上部分播客,但是多多少少有问题,我这篇播客是全部经过实践测试成功跑起来的。
数仓实战 - 滴滴出行
数仓实战 - 滴滴出行
【大数据】Flink 命令行详细操作指南
apache flink 1.16.x版本的命令行使用flink常见example运行尝试flink常见功能使用案例
Ubuntu18.04中Hadoop3.1.3安装教程(单机/伪分布式配置)
Ubuntu18.04中Hadoop3.1.3安装教程(单机/伪分布式配置)
Unable to load native-hadoop library for your platform解决方法
Unable to load native-hadoop library for your platform解决方法
centos7配置zookeeper本地模式与集群模式的详细教程
主要介绍zookeeper的本地模式于集群模式的配置,包含集群启动于关闭脚本,以下为配置步骤。
HIVE基本查询操作(二)——第1关:Hive排序
,好处是:执行了局部排序之后可以为接下去的全局排序提高不少的效率(其实就是做一次归并排序就可以做到全局排序了)。产生一个排序文件,他俩一般情况下会结合使用。(这个肯定是全局有序的,因为相同的。出来的数据是有序的,但是不能保证所有的数据是有序的,除非只有一个。端都会做排序,也就是说保证了局部有序(每个
Spark连接Hive读取数据
从Hadoop环境搭建到Spark连接Hive的小白入门教程,一套流程走下来在多次的尝试中既可以熟悉linux命令行的应用,同时初步熟悉大数据技术。
Linux配置hive(远程模式)
hadoop、分布式、hive(远程模式)
Flink SQL管理平台flink-streaming-platform-web安装搭建-整理
为什么我下的是适配flink 1.14.3的,我前面安装flink1.13.5,我也是下了一堆flink,经过尝试,才发现flink1.13.5这个版本,适配flink-streaming-platform-web tagV20220625。最近看到有人在用flink sql的页面管理平台,大致看了
hadoop调优
每个文件块大概占用150byte,如果一台服务器128G,能存储的文件块如下128 (G)* 1024(MB) * 1024(KB) * 1024(Byte) / 150 Byte = 9.1 亿。
Hbase简介
hbase的特点 hbase架构各个角色的功能 MemStore 刷盘 HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统
阿里云EMR集群搭建及使用
EMR是运行在阿里云平台上的一种大数据处理的系统解决方案。可以简单的理解为一个对标ambari的产品。EMR构建于云服务器ECS上,基于开源的Apache Hadoop和Apache Spark。可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR提供on ECS和o
hive3从入门到精通
拷贝hadoop/share/hadoop/common/lib目录中的 guava-27.0-jre.jar 到 hive/lib 目录。不要使用图形化 不然每次保存后3215行都会有个 特殊字符 如果产生删除即可 具体报错信息 后面有单独的描述。删除原有的 protobuf-java-2.5
Yarn增加新队列-----hive向Yarn提交任务后,Hadoop再次向Yarn提交任务阻塞
hive on spark搭建好后,任务提交会有问题,因为通过hive会话提交的任务一直存在且不会结束(除非关掉这个hive会话),根本原因是这些任务提交到了Yarn的同一个队列中,前面的任务没有执行完毕后面的任务不会执行,所以解决办法是增加一个Yarn队列,指定任务提交的队列,这样就不会出现任务的
大数据知识面试题-Hadoop(2022版)
序列号内容链接1大数据知识面试题-通用(2022版)待续…2大数据知识面试题-Hadoop(2022版)待续…3大数据知识面试题-MapReduce和yarn(2022版)待续…4大数据知识面试题-Zookeepr (2022版)待续…5大数据知识面试题-Hive (2022版)待续…6大数据知识面
flink 的 State
首先State是flink中的一个非常基本且重要的概念,本文将介绍什么是State ,如何使用State,State的存储和原理。以及State衍生的一些概念和应用。
python——spark入门
本文中,我们将首先讨论如何在本地机器上或者EC2的集群上设置Spark进行简单分析。然后,我们在入门级水平探索Spark,了解Spark是什么以及它如何工作(希望可以激发更多探索)。最后两节我们开始通过命令行与Spark进行交互,然后演示如何用Python写Spark应用,并作为Spark作业提交到
安装配置flume(超详细)
(百度网盘连接:链接:https://pan.baidu.com/s/1VeelyVBttwLMRS-2LGzp8w?内容:export JAVA_HOME=/home/newadd/software/jdk1.8.0_171。2、解压:tar -zxvf apache-flume-1.7.0-bi
熟悉常用的HBase操作
熟悉常用的HBase操作