RabbitMQ 79b5ad38df29400fa52ef0085a14b02f
消息队列可以看作是一个存放消息的容器,其中,生产者负责生产数据到消息队列中,而消费者负责消费数据。消息队列是分布式系统中重要的组件,目前使用较多的消息队列有ActiveMQ,RabbitMQ,Kafka,RocketMQ。消息队列主要解决了应用耦合、异步处理、流量削锋等问题。
Flink多流处理之connect拼接流
connect使用
模拟宕机后kafka的重新分区
直接停掉192.168.233.133:9092 (broker.id = 5)恢复192.168.233.133:9092 (broker.id = 5)宕掉的broker已经不在leader和Isr中,Replicas依然还在。Isr中已经恢复看到了,但是leader中还是没有。leader也能
ApacheBeam:如何有效地利用数据仓库和数据湖
作者:禅与计算机程序设计艺术 《6. "Apache Beam:如何有效地利用数据仓库和数据湖"》"Apache Beam:如何有效地利用数据仓库和数据湖"1. 引言
hive数据load到redis
hive数据传到redis
Python大数据之PySpark(七)SparkCore案例
重点关注在如何对数据进行清洗,如何按照需求进行统计1-rdd的创建的两种方法,必须练习2-rdd的练习将基础的案例先掌握。map。flatMap。3-sougou的案例需要联系2-3遍练习流程:首先先要将代码跑起来然后在理解代码,这一段代码做什么用的在敲代码,需要写注释之后敲代码。
基于Elasticsearch与Hbase组合框架的大数据搜索引擎
本项目为学校大数据工程实训项目,共开发4周,答辩成绩不错。代码仓库放文章尾,写的不好,代码仅供参考。
Kafka 调优
挂载 (Mount) 文件系统时 , 禁掉 atime 更新 (access time,文件最后被访问的时间)Broker 设置堆大小 : 经验值 : JVM 堆大小 = 6~8GB。Broker 端调优 : 保持客户端版本和 Broker 端版本一致。,防止 Linux 的 OOM Killer
Hive连接异常:无法通过JDBC连接打开客户端传输(JDBC Uri: jdbc:hive2:// 大数据)
总结起来,当遇到"Hive连接报错:Could not open client transport with JDBC Uri: jdbc:hive2:// 大数据"的问题时,我们可以先检查网络连接是否正常,然后确保Hive服务器的配置正确,并确认服务器正在运行。通过提供正确的JDBC连接URI(如
推荐系统架构设计实践:Spark Streaming+Kafka构建实时推荐系统架构
作者:禅与计算机程序设计艺术 1.简介推荐系统(Recommendation System)一直都是互联网领域一个非常火热的话题。其主要目标是在用户多样化的信息环境中,通过分析用户的偏好、消费习惯等数据,提供个性化的信息推送、商品推荐、购物指导等服务。如何设计一
【RabbitMQ 实战】08 集群原理剖析
上一节,我们用docker-compose搭建了一个RabbitMQ集群,这一节我们来分析一下集群的原理。
Hive中数组array的相关应用
array_intersect(array1, array2):返回一个包含所有同时在数组array1和数组array2中的元素的数组(数组array1和数组array2的交集元素)。split(reverse(concat_ws(delimiter,array_sort(array))),deli
第八篇——Kafka Streams源码解读
作者:禅与计算机程序设计艺术 1.简介Kafka Streams是一个开源分布式流处理平台,它可以让你轻松处理实时数据流。通过Kafka Streams API可以轻松创建、部署和运行复杂的实时流处理应用程序。虽然Kafka Stream提供了许多高级功能,但其
Kafka是什么,以及如何使用SpringBoot对接Kafka
继上一次教大家手把手安装kafka后,今天我们直接来到入门实操教程,也就是使用SpringBoot该怎么对接和使用kafka。当然,在一开始我们也会比较细致的介绍一下kafka本身。那么话不多说,马上开始今天的学习吧
Kafka Internals How Does it Solve Message Loss?
作者:禅与计算机程序设计艺术 1.简介Kafka是Apache开源流媒体平台项目中的一个主要子项目,是一个高吞吐量、低延迟的数据传输系统。基于发布/订阅模式的分布式消息系统,可以实现消息发布和订阅。通过“消息队列”这一中间件的机制,将数据生产者与消费者解耦合。K
Hadoop 2.7 再次降临——深入剖析 Hadoop 的设计思想
作者:禅与计算机程序设计艺术 1.简介随着云计算、大数据和机器学习的应用普及,越来越多的企业、组织和个人开始使用基于 Hadoop 之上的开源分布式框架进行数据处理、分析和挖掘,甚至构建自己的大数据平台。作为 Hadoop 框架最主要的开发者和拥护者,Apach
Pyspark读写csv,txt,json,xlsx,xml,avro等文件
Spark读写txt文件 Spark读写csv文件 Spark读写parquet文件 Spark读写json文件 Spark读写excel文件 Spark读写xml文件 Spark读写orc文件 Spark读写avro文件 Spark读写mysql中的表
配置虚拟机主机名并建立与本地主机的ip映射关系
主机间映射关系建立
ActiveMQ、RabbitMQ、RocketMQ、Kafka区别
上述案例中,如果我们使用接口进行消息推送,推送消息我们可以放在事务中处理,如果推送过程中出现异常,我们可以进行数据回滚,但我们引入消息中间件后,就需要考虑消息推送后,消费失败的问题,以及如果我们同时推送消息到BCD系统中,如何保证他们的事务一致性。但我们引入消息中间件后,就需要考虑消息中间件的维护,