大数据之 Spark 常用的端口号
7077,这是 Spark 在 Standalone 模式下的主节点(Master)与 Worker 节点通信的服务端口,客户端提交应用时也会连接此端口。:18080,历史服务器提供已完成作业的持久化存储和查询功能,用户可以在此端口下查看过去运行过的所有 Spark 应用的相关统计信息。:默认为 8
CentOS 7配置hadoop和hbase伪分布式模式保姆级教程(近乎零基础跟着配也能配对)
为你配置hadoop和hbase伪分布式模式开启宝宝模式
Zookeeper服务注册与发现
现有的关于eureka2.0的开源工作已经停止。作为2.x分支上现有工作存储库的一部分发布的代码库和工件被视为使用风险自负。Eureka 1.x是Netflix服务发现系统的核心部分,目前仍是一个活跃的项目。SpringCloud整合Zookeeper代替Eureka?Eureka停止更新了你怎么办
RabbitMQ队列
RabbitMQ队列
Hadoop 完全分布式部署
Hadoop 完全分布式部署 ,环境:CentOS 7 、jdk1.8 、hadoop 3.3.4
Zookeeper组件的搭建(超详细版来啦)
感谢友友们的支持和理解!若此篇文章有疑问之处,欢迎在评论区留言,收到后,我会一一答复的呐,后期我会不断地提高发表文章的质量,但由于是帮别人写的这些文章,可能发表文章速度慢了点哈,但会一直持续更新的呢
基于Spark的气象数据处理与分析
本实验采用Python语言,从网页爬取气象数据,并使用大数据处理框架Spark对气象数据进行处理分析,并对分析结果进行可视化。
Spark RDD 基本操作
下面以例子的方式详细介绍Spark RDD的这两种操作涉及的函数。
RabbitMQ之三种队列之间的区别及如何选型
整体上来说,RabbitMQ的Stream队列,其实有很多地方借鉴了其他MQ产品的优点,在保证消息可靠性的基础上,着力提高队列的消息吞吐量以及消息转发性能。Stream队列的核心是以append-only只添加的日志来记录消息,整体来说,就是消息将以append-only的方式持久化到日志文件中,然
Hadoop完全分布式的搭建
今天我们来学习Hadoop完全分布式的搭建,我们要搭建hadoop完全分布式要掌握哪些东西呢?首先需要掌握的就是Hadoop的基础知识,了解Hadoop的生态系统,包括Hadoop的核心组件(如HDFS、MapReduce、YARN等)以及其他相关组件(如HBase、Hive、Zookeeper等)
Kafka总结文档
/主要见讲义第21-23页1、定义类实现 Partitioner 接口。2、重写 partition()方法。代码中实际完成的就是重写partition方法中的几个步骤:获取消息,将参数的value值变成tostring然后根据需求,去分析value,然后返回不同情况返回不同的partition值最
初识RabbitMQ
RabbitMQ是一个开源的消息代理软件,实现了高级消息队列协议(AMQP)的标准,提供了可靠的消息传递和支持消息的发布与订阅。通过RabbitMQ,可以实现系统之间的解耦合,提高系统的可扩展性和灵活性。其灵活的路由机制、消息持久化、集群和高可用性特性使得RabbitMQ在分布式系统中广泛应用。
Zookeeper 作为Dubbo端注册中心基础知识
ZooKeeper 集群中三种角色的节点(Leader、Follower 和 Observer)都可以处理 Client 的读请求,因为每个节点都保存了相同的数据副本,直接进行读取即可返回给 Client。对于写请求,如果 Client 连接的是 Follower 节点(或 Observer 节点)
带你深入了解spark(重生之最牛逼最详细版)
MapReduce和Spark都是用于大数据处理的框架,但们在设计和功能上有一些区别。MapReduce是一种编程模型,用于处理大规模数据集的并行计算。它由Google提出,并被Apache Hadoop项目采纳。MapReduce将计算任务分为两个阶段:Map阶段和Reduce阶段。在Map阶段,
Kafka-消费者-KafkaConsumer分析-offset操作
commitOffsetsSync()方法与commitOffsetsAsync()方法的实现类似,也是调用sendOffsetCommitRequest()方法创建并缓存OffsetCommitRequest,使用OffsetCommitResponseHandler处理OffsetCommitR
(超详细)Spark on Yarn安装配置
(超详细)Spark on Yarn安装配置,附有详细步骤,详细代码,注意事项提示
Hadoop 集群
可以访问的 web 页面全部绑定了 127.0.0.1。禁止外部访问,需要访问可以使用 nginx 反向代理 增加鉴权之后暴露出去。如果不需要可以替换 IP。
2、RabbitMQ_安装
使用yum升级gblic 版本。上传安装包到linux 环境。安装rabbitMQ。启动rabbitmq。关闭rabbitMQ。重新设置一下主机名称。
她看了这篇文章后竟让霸总怒甩八百万——Spark??
Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。Hadoop的核心组件是HDFS、MapReduce。MapReduce是一个分布式运算程序的编程框架,其核心功能为把用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在Hadoop集群上
【Spark Graphx 系列】Pregel PeriodicCheckpointer原理场景示例源码详解
[【Spark Graphx 系列】Pregel PeriodicCheckpointer原理场景示例源码详解]