Spark集群搭建记录 | 云计算[CentOS7] | Spark配置
本文目录写在前面step1 Spark下载step2 修改环境变量~/.bashrc/etc/profile配置文件修改slavesspark-env.shstep3 配置slave节点集群启动web浏览器状态查看配置开机启动(可选)写在前面本系列文章索引以及一些默认好的条件在 传送门要想完成Spa
杨校老师课堂之分布式数据库HBase的部署和基本操作
部署分布式数据库——HBase学习背景:以下采用伪分布式方式搭建HBase故而采用内置的Zookeeper协调处理,不再搭建外置ZooKeeper,因此会存在单点故障问题,若需要解决这个情况,可采用Zookeeper部署一个HA(高可用)的Habse集群解决。(1) 安装JDK、Hadoop,这里采
Hadoop快速入门——第二章、分布式集群(第一节、网络与ssh登录配置)
第二章、hadoop分布式集群1、配置静态IP地址和修改主机名2、配置主机名查询静态表3、配置SSH免密
Hadoop快速入门——第二章、分布式集群(第二节、Hadoop分布式模式搭建)
第二章、hadoop分布式集群Hadoop分布式模式搭建流程:1、修改配置文件core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml slaves1、配置【core-site.xml】vi /opt/hadoop/etc/hadoop/co
大数据-kafka学习(八)—— 生产调优、硬件配置选择
一、场景说明100万日活,每人每天100条日志,每天总共的日志条数上100万*100条=1亿条1亿/24小时/60分/60秒=1150条/每分钟每条日志大小:0.5K-2K(取1K)1150条/每分钟*1K≈ 1m/s高峰期每分钟:1150条*20倍 = 23000条。每秒多少数据量:20MB/s。
多线程-并发编程(7)-生产者消费者模式及非阻塞队列与阻塞队列实现
生产者消费者模式是一个十分经典的多线程协作模式弄懂生产者消费者问题能够让我们对多线程编程的理解更加深刻存在3个元素1.生产者(类比厨师)2.生产者的生产产品(类比美食)3.消费者(类比吃货)思路分析:理想情况:最开始,生产者先抢到cpu执行权;生产出生产产品并放在2者位置之间(类比餐桌)然后消费者抢
Spark 创建RDD的几种方式
Spark 创建RDD的几种方式
Oozie常用命令
启动命令:bin/oozied.sh start关闭命令:bin/oozied.sh stop页面访问:http://node01:11000/oozie/查看信息:bin/oozie job -oozie http://node01:11000/oozie -info 0000029-191027
内外网短信状态接收超时通知的常用的解决方案
怎样做技术选型•不要特立独行,优先使用公司约定技术栈,统一组件!•使用成熟的技术!•使用成熟技术的成熟功能!•使用团队熟悉技术栈中间件!•考虑后期数据量用户量•考虑后期运维难度(结合公司实施人员运维水平)常用的解决方案•方案1:•可以利用redis自带的key自动过期机制,短信推送时将id写入red
大数据-kafka学习(七)——集成SpringBoot
SpringBoot是一个在JavaEE开发中非常常用的组件。可以用于Kafka的生产者,也可以用于SpringBoot的消费者。一、SpringBoot项目搭建如果Spring Initializr产生如下错误解决方法Custom的URL改为https://start.aliyun.com/Spr
大数据-kafka学习(五)——消费者
一、KAfka消费方式1、pull(拉)模式:consumer 采用从broker中主动拉取数据,Kafka 采取这种方式2、push(推)模式:Kafka 没有采用这种方式,是因为由broker决定消费发生速率,很难适应所有消费者的消费速率。例如推送的速度是50m/sConsumer1、Consu
大数据-kafka学习(六)——简单代码实现生产者消费者
maven依赖导入 <dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.12</artif
RabbitMQ消息中间件-基础篇
文章目录一.什么是MQ1.1 mq的作用1.2 mq的区别一.什么是MQ1.1 mq的作用1.流量消峰: 将同时刻大量请求访问,使用消息队列做缓冲,把一秒内下的订单分散成一段时间来处理.2.应用解耦:**3.异步处理: **1.2 mq的区别...
使用Flink1.14.3与Kafka、Fine BI练习搜狗日志实时BI小项目
使用Flink1.14.3与Kafka、Fine BI练习搜狗日志实时BI小项目
数据治理(十一):数据安全管理Ranger初步认识
目录数据安全管理Ranger初步认识一、Ranger介绍二、Ranger架构数据安全管理Ranger初步认识在大数据平台中,有海量数据存储,通畅在采集数据过程中敏感数据有意或者无意的进入大数据平台中,数据安全管理非常重要。我们不希望一些敏感数据被他人访问,希望可以按照一种规则给部分人访问权限,以防止
我的四周年创作纪念日
目录机缘收获日常憧憬机缘2018年写下第一篇文章centos命令大全,那时的想法是把CSDN当成一个网上的笔记本,后来才发现,随着时间的过去,所写的博客居然有人浏览,而且还有评论。接着就踏上写博客的路上,我的博客知识点很杂,包括php、python、java、大数据、云原生等等,几乎覆盖一些知识热点
Spark项目实战-数据清洗
SparkSql单次处理Web日志,分析用户留存率
如何玩懂RabbitMQ的消息确认机制?
用详细的讲解带你如何玩懂RabbitMQ的消息确认机制,包换生产者和消费者的消息确认,保护我们的消息不被丢失。
HDFS小文件问题分析与解决方案(面试层面~)
1)会有什么影响(1)存储层面:1个文件块,占用namenode多大内存150字节1亿个小文件150字节1个文件块 * 150字节(2)计算层面:每个小文件都会起到一个MapTask,占用了大量计算资源2)怎么解决(1)采用har归档方式,将小文件归档(2)采用CombineTextInputFor
【大数据】带你理解并使用flink中的Time、Window(窗口)、Windows Function(窗口函数)
这篇文章带你理清大数据开发中flink中time、window使用概念、实战的内容,欢迎大家品读,同时示例代码也是基于最新的flink1.13开发。