Spark基础知识
Apache Spark是用于大数据处理的统一分析引擎;
Hadoop HA部署过程中出现主备namenode或datanode挂掉的问题
在部署Hadoop HA的过程时,当进行到hdfs namenode -format格式化这一步骤时显示查阅多篇文章分析可知其原因是节点之间无法通信,所以无法建立连接。
消息队列zookeeper集群+kafka
可恢复性:系统当中的有一部分组件小时,不影响整个系统,也就是消息队列当中,即使一个处理消息的进程失败,一旦恢复还可以重新加入到队列当中继续处理消息。经纪人:broker每个kafka节点都有一个 borker,每个负责一台kafka,id唯一,存储主题分区当中数据,处理生产和消费者的请求,B启动,在
CentOS7安装Zookeeper分布式集群
集群规模较小时,分发和打包的操作可以手动在每个节点一步一步的操作,但当集群的节点规模成百上千时,显然需要一种批量操作的方式,下面代码块中的for循环语句就是用于批量处理的。的文本文件,其内容为Zookeeper集群中节点的id,例如令host01、host02、host03对应的myid依次为1、2
CentOS7本地部署分布式开源监控系统Zabbix并结合内网穿透实现远程访问
CentOS7本地部署分布式开源监控系统Zabbix并结合内网穿透实现远程访问
详解Kafka 复制与副本机制
Apache Kafka 是一个高度可扩展、分布式的消息系统,适用于大规模数据流处理和事件驱动的应用程序。在本文中,我们将深入探讨 Kafka 的复制与副本机制,包括副本同步、复制架构和 ISR(In-Sync Replicas)概念以及分析 Kafka 中的副本管理,以确保 Kafka 的可靠性和
大数据编程期末大作业2023
本篇文章讲解Spark编程基础这门课程的期末大作业,主要围绕Hadoop基本操作、RDD编程、SparkSQL和SparkStreaming编程展开。
kafka伪分布式搭建与命令测试
下载自己需要的版本即可,以下以3.6.1版本为例。
Kafka内容分享(七):Kafka 数据清理和配额限速
Kafka日志管理器中会有一个专门的日志删除任务来定期检测和删除不符合保留条件的日志分段文件,这个周期可以通过broker端参数log.retention.check.interval.ms来配置,默认值为300,000,即5分钟。日志删除任务会检查当前日志的大小是否超过设定的阈值来寻找可删除的日志
Hadoop-3.3.6完全分布式集群搭建
右击创建好的虚拟机hadoop base,选择管理-克隆-点击下一步-虚拟机中的当前状态-下一步-创建完整克隆-下一步-设置克隆机名称,安装位置-完成。设置静态ip,与主节点ljl的hosts文件保持一致,设置成功重启网络。首先进入hadoop所在配置文件目录/usr/local/src/Hadoo
[spark] RDD, DataFrame和DataSet是什么?如何相互转化
简而言之,RDD 是最基本的抽象,DataFrame 是对结构化数据的更高层次抽象,而 Dataset 是在 DataFrame 基础上提供了类型安全性的扩展。在实际使用中,通常优先选择使用 DataFrame 或 Dataset,因为它们更适合进行结构化数据处理和利用 Spark 的优化能力。在
从零开始了解大数据(二):Hadoop篇
Hadoop是一个开源的分布式计算框架,主要用于处理大规模数据集。本文将介绍Hadoop集群的主要组成部分,包括HDFS分布式文件系统和YARN资源管理器,并探讨它们在大数据处理中的作用和功能。
字节跳动 Spark 支持万卡模型推理实践
在云原生化的发展过程中 Kubernetes 由于其强大的生态构建能力和影响力,使得包括大数据、AI 在内越来越多类型的负载应用开始向 Kubernetes 迁移,字节内部探索 Spark 从 Hadoop 迁移到 Kubernetes 对作业的云原生化运行。字节跳动的大数据资源管理架构和 Spar
大数据平台/大数据技术与原理-实验报告--部署ZooKeeper集群和实战ZooKeeper
在上步修改配置文件zoo.cfg中,将存放数据快照和事务日志的目录设置为目录data和datalog,因此需要在master机器上创建这两个目录,使用如下命令实现,假设当前目录为以上步骤操作后的所在目录“/opt/so/apache-zookeeper-3.9.1-bin”。由于ZooKeeper集
zookeeper服务启动报错&zookeeper加入到开机自启服务
zookeeper启动报错Error contacting service. It is probably not running.网上搜的防火墙、端口的各种解决方法都尝试了,无果。特此记录解决方法
分布式系统架构设计之分布式数据存储的安全隐私和性能优化
在前面分布式系统部分,有对安全性做过介绍,如前面所述,在分布式系统中,确保系统的安全性和隐私是至关重要的。当然,在现在纷繁复杂的分布式系统中,涉及到分布式数据存储性能优化还有很多除了以上策略以外的策略,无法穷举,我仅针对常用策略进行了介绍,希望可以帮助到你。数据存储设计完成后,在应用层面,架构师还需
kafka 集群 KRaft 模式搭建
Apache Kafka是一个开源分布式事件流平台,被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用程序Kafka 在2.8版本之后,移除了对Zookeeper的依赖,将依赖于ZooKeeper的控制器改造成了基于Kafka Raft的Quorm控制器,因此可以在不使用ZooKeepe
Zookeeper
Zookeeper是一个分布式协调服务,最初由雅虎公司开发。它提供了一个简单的文件系统界面,可以在分布式环境中保存和管理数据。Zookeeper的设计目标是提供高性能、高可用、严格顺序的服务。
2023_Spark_实验三十三:配置Standalone模式Spark3.4.2集群
基于Centos7,部署Spark3.4.2组件,实现Standalone模式集群部署。并通过自带的样例代码pi计算验证集群是否ok。
ZooKeeper 使用介绍和原理详解
ZooKeeper是一个开源的分布式协调服务,为分布式系统提供高效的管理和协调机制。它被广泛应用于解决分布式系统中的各种共识问题,如配置管理、命名服务、分布式锁、分布式队列、选举算法等。