大数据开发之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)
1、数据需求:用户分析日志log、业务数据db2、采集需求:日志采集系统(flume)、业务数据同步系统(Maxwell,datax)3、数据仓库建模:维度建模4、数据分析:对设备、会员、商品、地区、活动等电商核心主题进行统计,统计的报表指标接近100个。5、即席查询:用户在使用系统时,根据自己当时
centos 7 kafka2.6单机安装及动态认证SASL SCRAM配置
producer 用于生产消息,consumer 用于消费消息,producer和consumer用于测试使用,生产中使用可根据业务需要创建对应用户,这里仅用于演示。创建用户之后,需要为每个 Broker 创建一个对应的 JAAS 文件。配置 SASL/SCRAM 的第一步,是创建能连接 Kafka
【RabbitMQ】交换机详解看这一篇就够了
交换机(Exchange)是消息队列中的一个重要概念,用于实现消息的路由和分发。交换机接收发布到它的消息,并根据特定的规则将消息发送到一个或多个队列中。在消息队列系统中,交换机起到了消息的分发中心的作用。它接收生产者发送的消息,并根据预定义的路由规则将消息发送到符合条件的队列中,然后由消费者从队列中
zookeeper
概念:zookeeper是一个分布式应用程序的协调服务。作用:配置管理、分布式锁、集群管理zookeeper是一个树形数据结构。每一个节点被称为ZNode,每个节点会保存自己的数据和节点信息,并允许少量的数据存储到节点下。节点分为四类:persistent 持久化节点ephemeral 临时节点:-
RabbitMQ初级的部分面试题
RabbitMQ初级的学习心得
[PySpark学习]RDD的转换(Transformation)与动作算子(Action)
RDD(英文全称Resilient Distributed Dataset),即弹性分布式数据集是spark中引入的一个数据结构,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。Resilient弹性:RDD的数据可以存储在内存或者磁盘当中,RDD的数据可以分区。
RabbitMQ之交换机
RabbitMQ 中的交换机(Exchange)是消息的分发中心,负责将消息发送到一个或多个队列。它接收生产者发送的消息并将这些消息路由到消息队列中。
RabbitMQ 常见问题
在RabbitMQ中,消息最终会保存在队列中,在同一个队列中,消息是顺序的,保持先进先出的原则,这个由Rabbitmq保证。如果消息已经被消费者消费了,只是在消费者返回ack确认信息的时候出现异常,导致ack信息未能发送到broker,从而导致RabbitMQ不清楚这条消息到底有没有被消费成功,消息
大数据:分类算法深度解析
大数据分类算法是处理海量数据、从中提取有用信息的关键工具。本文深入探讨了分类算法的基本原理、常见算法以及它们在不同领域的应用。通过案例分析,我们了解了如何使用决策树、支持向量机和神经网络等算法解决实际问题,并通过代码示例展示了它们在Python中的实现。未来,大数据分类算法的发展趋势包括深度学习的应
使用 Kafka 和 CDC 将数据从 MongoDB Atlas 流式传输到 SingleStore Kai
在本文中,我们将了解如何将 Apache Kafka 代理连接到 MongoDB Atlas,然后使用 CDC 解决方案将数据从 MongoDB Atlas 流式传输到 SingleStore Kai。我们还使用 Metabase 创建了一个快速的可视化仪表板,以帮助我们深入了解我们的广告活动。为了
整合MQ-----RabbitMQ
个体自学内容 如有错误请指正
从Dinky聊聊Flink的二次开发
这几天研究了一下Dinky,确实是一款很不错的软件,功能很强大,也很实用,可以极大的方便我们flink sql的开发工作,同时他也支持其他一些主流数据库的SQL,像starrocks。Dinky号称基于Flink二次开发,没有侵入Flink,所以这一点就值得我们学习,为了了解Dinky我自己也搭建了
Spark SQL进阶
spark sql 深度介绍,spark_dataFrame与pandas_dataFrame互转,基于pandas的完成自定义UDF函数,UDAF函数
【HBase】——原理简介
HBase 原理简介
Clojure 实战(4):编写 Hadoop MapReduce 脚本
众所周知,我们已经进入了大数据时代,每天都有PB级的数据需要处理、分析,从中提取出有用的信息。Hadoop就是这一时代背景下的产物。它是Apache基金会下的开源项目,受Google两篇论文的启发,采用分布式的文件系统HDFS,以及通用的MapReduce解决方案,能够在数千台物理节点上进行分布式并
Flink系列之:Upsert Kafka SQL 连接器
更准确地说,数据记录中的 value 被解释为同一 key 的最后一个 value 的 UPDATE,如果有这个 key(如果不存在相应的 key,则该更新被视为 INSERT)。总之,这段代码的作用是通过Kafka连接器创建两个表,并将"pageviews"表中的数据计算出每个地区的pv和uv,并
RabbitMQ 部署与配置[CentOS7]
【代码】RabbitMQ 部署与配置[CentOS7]
wsl kafka的简单应用
本文介绍了wsl下jdk、kafka的安装过程,并演示了主题,生产者,消费者的创建
RabbitMQ 核心概念(交换机、队列、路由键),队列类型等介绍
RabbitMQ 是一个开源的消息代理(Message Broker),用于在应用程序之间传递消息。它实现了高级消息队列协议(AMQP),提供了可靠的消息传递和消息路由机制,以支持分布式系统的开发。AMQP:AMQP(Advanced Message Queuing Protocol)是一种协议,用
RabbitMQ高级特性
消息的可靠性保证:保证消息在传输过程中不会出现消息丢失的情况,确保发送的消息至少被消费一次。