Kafka优雅源码设计1-Utils.propsToMap
前言Kafka作为一个开源高性能消息引擎服务,也被评为21世纪最具影响力的技术进步之一。近期在读Kafka源码过程中,发现了很多闪光点,也许我们平时工作不需要Kafka的源码,甚至压根用不到Kafka来实现功能。但是这样一个优秀设计的分布式中间件,在代码的编写上有着很好的示范作用。本系列也希望摘取一
Hadoop集群搭建记录 | 云计算[CentOS7] | 伪分布式集群 Hadoop安装配置
写在前面本系列文章索引以及一些默认好的条件在 传送门所有节点均需要安装并配置Hadoop一共设置了两个节点,分别是master && slave1step1. Hadoop下载博主使用的是Hadoop3.1.1,可以去Hadoop官网下载step2. Hadoop解压安装将下载后的H
【Apache】 手把手教你Log4j2漏洞复现
ApacheLog4j2是一个开源的Java日志框架,被广泛地应用在中间件、开发框架与Web应用中。
【Zookeeper】分布式集群(详细图文)
【Zookeeper】分布式集群(详细图文)·(建议收藏)
Linux免密大法好 ssh-copy-id 和 expect 免交互输入脚本
Linux 终于不用手动输入 密码了,得益于 ssh-copy-id 与 expect
Hadoop本地运行模式(Grep案例和WordCount 案例)
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。这里先介绍本地运行模式运行官方Grep案例提供一些文本文件, grep可以从中找到想要匹配的文本运行官方WordCount 案例这例子是对文件中某些单词进行统计数。
做技术需要循序渐进
怎么学习技术,技术需要一步一步积累,需要一个阶梯一个阶梯上升。保持终身学习,让自己变得更加智慧和幸福。
spark学习之处理数据倾斜
大数据面试,遇见数据倾斜不会答?最全的数据倾斜总结来教你如何解决它。
Spark框架—RDD分区和缓存
Spark框架—RDD分区和缓存AccessLogAgg.scalaActionOp.scalaTransformationOp.scalaWorldCount.scala日志输出AccessLogAgg.scalaimport org.apache.spark.rdd.RDDimport org.
Pandas基础——一文详不尽(一)
Transforming DataFrames下面列举了pd常用的数据处理方法import pandas as pdDF = pd.DataFrame(xxxx)探索DF整体这里主要是看数据集里的整体部分,当你拿到数据集后应该是先对数据集的整体进行一个观察和探索看数据的前几行就用head()观察每列
Spark框架—RDD算式mapPartitionsWithIndex与filter的用法
@junit.Test def mapPartitionsWithIndex(): Unit ={ sc.parallelize(Seq(1,2,3,4,5,6),2) .mapPartitionsWithIndex((index,iter) =>{ print
Hive安装配置
前提条件:1、 安装好hadoop2.7.3伪分布式环境(Linux环境);2、安装好MySQL5.7(推荐使用) (Windows环境) ,允许mysql远程连接3、并新建一个名为hive的数据库安装步骤:1、官网下载hive安装文件,下载地址:http://archive.apache.org/
将flume的数据实时发送到spark streaming的部署文档
一、创建数据源文件 echo "hello world" >> /tmp/word.txt二、安装flume 参考csdn文档 https://blog.csdn.net/weixin_43859091/article/details/123635082 三、编写spark.proper
使用canal监控mysql数据库实现elasticsearch索引实时更新
文章目录业务场景安装下载安装数据库启用row binlog使用修改配置文件canal.properties配置单个连接配置多个连接配置rabbitMQ程序改动canal源码微服务消费mq业务场景使用elasticsearch作为全文搜索引擎,对标题、内容等,实现智能搜索、输入提示、拼音搜索等elas
Hadoop 大数据Hive仓库组件部署超详细
1.数据仓库1.1概念构建面向分析的集成化数据环境面向分析的存储数据1.2主要特征数据仓库是面向主题的集成的非易失的和时变的数据集合,用以支持管理决策1.2.3 非易失性开启三台虚拟机上传压缩包到software解压到src下改名修改环境变量生效环境变量查询卸载Maeidb文件包上传MySQL安装包
springboot 2.0 集成 kafka 2.6.2(集群) + elk 7.6.2(集群)
小伙伴们,你们好,我是老寇目录一、前提条件二、准备工作三、ELK介绍四、Kafka介绍五、日志监控架构图六、微服务集成一、前提条件搭建kafka集群 搭建elasticsearch集群 搭建微服务环境二、准备工作192.168.1.1(启动Elasticsearch集群+ Kafka集群)192.1
2.3 Hadoop安装与体验
带你全面理解hadoop大数据。包含:伪分布式配置创建hadoop用户更新apt安装SSH、配置SSH无密码登陆安装Java环境Hadoop伪分布式配置运行Hadoop伪分布式实例深耕于机器学习算法、深度学习、数据分析等领域,希望我这微不足道的知识能帮到您。
Apache Yarn重启,历史任务可以永久保留的几个参数
非HA模式下的Apache Yarn在重启以后,8088端口默认是看不到之前运行过的历史任务的,如果想要看到历史任务,只需要在yarn-site.xml里面设置三个参数即可.<property> <name>yarn.resourcemanager.recove
RFM用户分层模型|原理+Python全流程实现
RFM 模型在数据分析中经常会进行用户分层,本文我们来了解一下常见的用户分层模型RFM。RFM概念RFM是由R(Recency)、F (Frequency)、 M(Monetary) 三个维度构成的,其具体含义如下:R:最近一次消费时间间隔F:消费频率M:消费金额这里对于这三个维度的概念简单的做一个
MySQL优化手册概要——LIMIT优化
mysql语句优化之——LIMIT优化