Spark 基础
Spark在2013年加入Apache孵化器项目,之后获得迅猛的发展,并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Sp
月入五万技巧spark,不够五万我来给你补 头都大了
但是Spark是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会由于内存资源不够导致Job执行失败,此时,MapReduce其实是一个更好的选择,所以Spark 并不能完全替代MR。Spark就是在传统的MapReduce计算框架的基础上,利用其计算过程的优化,从而大大加快了数据分析、挖掘
Zookeeper(动物园管理员)
zookeeper
Linux-一篇文章,速通Hadoop集群之伪分布式,完全分布式,高可用搭建(附zookeeper,jdk介绍与安装)。
本片文章会详细介绍hadoop的作用,历史,学习hadoop。以及教会大家如何在Linux搭建hadoop的三种集群,以应对不同场所不同需求的集群环境。除此之外,也可以在本文里一起探讨交流,提升能力。
Zookeeper 如何保证分布式系统数据一致性
写在前面分布式架构出现后,越来越多的分布式系统会面临数据一致性的问题。目前,ZooKeeper 是在解决分布式数据一致性上最成熟稳定且被大规模应用的工业级解决方案。ZooKeeper 保证 分布式系统数据一致性的核心算法就是 ZAB 协议(ZooKeeper Atomic Broadcast,原子消
Spark之【基础介绍】
Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。
SpringCloud-基于SpringAMQP实现消息队列
本文介绍了如何基于SpringAMQP实现消息队列。Spring AMQP是Spring框架对AMQP(高级消息队列协议)的支持,提供了在分布式系统中进行消息传递的强大机制。它构建在RabbitMQ之上,并提供了一种灵活且易于使用的方式,用于在微服务架构中进行异步通信和消息传递。
大数据处理:利用Spark进行大规模数据处理
1.背景介绍大数据处理是指对大规模、高速、多源、多样化的数据进行处理、分析和挖掘的过程。随着互联网、人工智能、物联网等领域的发展,大数据处理技术已经成为当今科技的核心技术之一。Apache Spark是一个开源的大数据处理框架,它可以处理批量数据和流式数据,并提供了一系列的数据处理和分析功能。本文将
RabbitMQ 安装使用
RabbitMQ 安装使用
开源大规模分布式MQTT消息服务器EMQX部署教程
到此,EMQX部署就分享完了,MQTT协议是一个物联网场景下用的特别多的一个协议,版本有MQTT3、MQTT3.1.1、MQTT5.0,MQTT在弱网环境下比其它的一些协议要稳定,它也是构建在tcp协议之上的一个协议,之前的文章分享过一个TIO的开源的websock项目,TIO在弱网环境就没有EMQ
Kafka Producer/Consumer 关系解释及测试demo
这就像在Kafka中,如果某个Partition的消息积压,负责这个Partition的消费者就需要更快地处理消息,以防止延迟。这时,厨师们(Producers)开始忙碌起来,每准备好一道菜,就会放到服务台(Topic)的指定位置(Partition)。在这个餐厅中,有时候会有特别多的订单,厨师需要
ClickHouse 与 Kafka 整合: 实时数据流处理与分析解决方案
1.背景介绍随着数据量的不断增长,实时数据处理和分析变得越来越重要。ClickHouse 和 Kafka 都是在现代数据技术中发挥着重要作用的工具。ClickHouse 是一个高性能的列式数据库,专为 OLAP 和实时数据分析而设计。Kafka 是一个分布式流处理平台,用于构建实时数据流管道和流处理
Kafka(九)跨集群数据镜像
下面就一个笔者公司的实际的案例,结合上述的理论知识,来说明Kafka灾备解决方案是如何应用到实际的生产当中的,我们暂且称之为H公司。H公司近年来在进行IT系统的数字化转型,采用了事件驱动(EDA)的架构,对公司数十个独立的IT系统进行重构和整合。事件驱动公有云和私有云/遗留系统之间的消息订阅与发布消
pyspark分布式部署随机森林算法
分布式算法的文章我早就想写了,但是一直比较忙,没有写,最近一个项目又用到了,就记录一下运用Spark部署机器学习分类算法-随机森林的记录过程,写了一个demo。在大规模数据的情况下如果需要用机器学习算法,Spark是一个很好的选择,可以大大提升任务的运行速度,工业环境中效率往往是最需要的,Spark
重生之救赎(Spark的救赎)新手小白适用
首先简单介绍了Spark的发展历史、Spark的特点,然后介绍了Spark的生态圈和Spark的应用场景。接着详细介绍单机模式、单机伪分布式模式和完全分布式模式下Spark集群的搭建过程。最后重点介绍了Spark的架构、Spark作业的运行流程和Spark的核心数据集RDD。
初识Hadoop
4.客户端接收数据。生态圈中的每个子系统只负责解决某一个特定的问题区域,甚至可能更小,它并不是一个全能系统,而是多个小的系统的集成。通俗来讲,带有结构,有序的数据统称为结构化数据,例如我们平常使用的Excel,mysql,数字,符号等等。半结构化数据是结构化数据的一种形式,半结构化数据就是介于完全结
【分库分表】基于mysql+shardingSphere的分库分表技术
基于shardingSphere,聊一聊分库分表
Kafka - 延迟消息队列 - 使用、实现和原理
延迟消息队列是一种常见的消息传递模式,它允许在特定的时间点或延迟一段时间后发送消息。在本文中,我们将探讨如何使用Kafka来实现延迟消息队列,并深入了解其原理。
Zookeeper基础知识:成功分布式系统的关键
ZooKeeper是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。简单来说zookeeper=文件系统+监听通知机制ZooKeeper最为主要的使用场景,是作
深入浅出RabbitMQ:顺序消费、死信队列和延时队列
RabbitMQ 是一个开源的消息中间件,它实现了高级消息队列协议(AMQP),同时提供了各种重要组件来支持消息的生产、传输和消费。