【Hadoop】大数据开发环境配置
注意:格式化操作只能执行一次,如果格式化的时候失败了,可以修改配置文件后再执行格式化,如果格式化成功了就不能再重复执行了,否则集群就会出现问题。hadoop集群就会使用到ssh,我们在启动集群的时候只需要在一台机器上启动就行,然后hadoop会通过ssh连到其它机器,把其它机器上面对应的程序也启动起
PG14归档失败解决办法archiver failed on wal_lsn
PG14归档失败解决办法archiver failed on wal_lsn
Spring整合RabbitMQ——生产者
添加依赖坐标,在producer和consumer模块的pom文件中各复制一份。配置producer的xml配置文件。配置producer的配置文件。
【项目实战】在win10上安装配置Hadoop的环境变量
在win10操作系统上,运行Hadoop以及其相关依赖包(比如Hbase依赖包)时,我遇到的情况是,我需要使用SpringBoot+Phoenix的组合去连接Hbase。这往往是需要在本机(Windows 10 )上安装配置 Hadoop 环境变量才能够得到返回值的。以下是具体的安装配置 Hadoo
大数据学习(2)Hadoop-分布式资源计算hive(1)
Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。那为什么会有Hive呢?它是为了解决什么问题而诞生的呢?下面通过一个案例,来快速了解一下Hive。例如:需求,统计单词出现个数。(1)在Hadoop课程中我们用MapRe
深入理解 Flink Time and Windows
作者:禅与计算机程序设计艺术 1.简介Apache Flink是一个开源的分布式流处理平台,它的运行时就是基于数据流模型的实时计算引擎,能够处理实时的大规模数据流。Flink提供Java、Scala、Python、Golang等多种编程语言API接口及多种批处理
Python黑马程序员(Spark实战)笔记
注意:字符串返回的是['a','b','c','d','e','f','g'] 字典返回的是['key1','key2']#func(T)-->U:告知按照rdd中的哪一个数据进行排序,比如lambda x:x[1]表示按照rdd中的第二列元素进行排序。百度网盘:链接:https://pan.b
insert overwrite table:数据仓库和数据分析中的常用技术
"INSERT OVERWRITE TABLE:清空和重新加载表中的数据"
RabbitMQ-API
MQ默认是采用轮询的方式分发消息,但是有的消费者处理很慢,就会导致消息积压,可以设置不公平分发,消费者进行应答之后,才会接收下一条消息。了部分突然它挂掉了,会发生什么情况。,因为这种模式如果消息在接收到之前,消费者那边出现连接或者 channel 关闭,那么消息就丢。默认消息采用的是自动应答,所以我
大数据课堂笔记 HDFS的shell操作
HDFS的shell操作
Zookeeper的选举机制
Zookeeper的选举机制是它的一项核心功能,用于在分布式系统中选择一个领导者(leader)来处理各种请求和操作。服务器ID(Server ID):每个Zookeeper服务器在启动时都会被分配一个唯一的服务器ID(SID)。这个ID用于标识服务器在集群中的位置和角色。选举状态(Election
结构化数据处理与分析:Spark SQL 教程
作者:禅与计算机程序设计艺术 1.简介1.1 概述Apache Spark 是由 Apache 基金会开发的开源分布式计算框架,最初用于对大规模数据进行快速的处理,在大数据计算领域占据重要地位。其独特的高性能处理能力及丰富的数据处理功能使得 Spark 在各个
Zookeeper下载安装
下载地址:https://downloads.apache.org/zookeeper。
任务调度框架-如何实现定时任务+RabbitMQ事务+手动ACK
任务调度框架-如何实现定时任务+RabbitMQ事务+手动ACK
Spark Streaming 模型实践:
作者:禅与计算机程序设计艺术 1.简介概述Apache Spark™ 是开源的、快速的、通用大数据分析引擎,它支持多种编程语言,包括 Scala、Java、Python、R 和 SQL。Spark 提供了高级的 API 来处理数据流,同时还具有强大的机器学习能力
【Zookeeper专题】Zookeeper经典应用场景实战(一)
ZooKeeper : Curator框架之数据缓存与监听CuratorCache。
Kafka生产者原理 kafka生产者发送流程 kafka消息发送到集群步骤 kafka如何发送消息 kafka详解
第一次调用时随机生成一个整数(后面每次调用在这个整数上自增),将这个值与 topic 可用的 partition 总数取余得到 partition 值,也就是常说的 round-robin 算法。6. 消息缓存到RecordAccumulator收集器,分配到该分区的DQueue(RecordBat
2023_Spark_实验十二:Spark高级算子使用
Spark高级算子,Scala开发,idea
zookeeper应用场景(二)
优点:Zookeeper分布式锁(如InterProcessMutex),具备高可用、可重入、阻塞锁特性,可解决失效死锁问题缺点:因为需要频繁的创建和删除节点,性能上不如redis在高性能、高并发场景下,不建议用Zookeeper的分布式锁。而由于Zookeeper的高可靠性,因此在并发量不是太高的
【微服务 SpringCloud】实用篇 · Eureka注册中心
本文主要讲解的内容是微服务SpringCloud中的一个重要组件,注册中心的Eureka,讲解服务如何注册与拉取!