大数据 - overfit.cn

大数据开发之电商数仓（hadoop、flume、hive、hdfs、zookeeper、kafka）

1、数据需求：用户分析日志log、业务数据db2、采集需求：日志采集系统（flume）、业务数据同步系统（Maxwell，datax）3、数据仓库建模：维度建模4、数据分析：对设备、会员、商品、地区、活动等电商核心主题进行统计，统计的报表指标接近100个。5、即席查询：用户在使用系统时，根据自己当时

overfit同步小助手 2024-01-25 20:03:45 0 收藏

centos 7 kafka2.6单机安装及动态认证SASL SCRAM配置

producer 用于生产消息，consumer 用于消费消息，producer和consumer用于测试使用，生产中使用可根据业务需要创建对应用户，这里仅用于演示。创建用户之后，需要为每个 Broker 创建一个对应的 JAAS 文件。配置 SASL/SCRAM 的第一步，是创建能连接 Kafka

overfit同步小助手 2024-01-25 19:03:58 0 收藏

【RabbitMQ】交换机详解看这一篇就够了

交换机（Exchange）是消息队列中的一个重要概念，用于实现消息的路由和分发。交换机接收发布到它的消息，并根据特定的规则将消息发送到一个或多个队列中。在消息队列系统中，交换机起到了消息的分发中心的作用。它接收生产者发送的消息，并根据预定义的路由规则将消息发送到符合条件的队列中，然后由消费者从队列中

overfit同步小助手 2024-01-25 19:03:54 0 收藏

zookeeper

概念：zookeeper是一个分布式应用程序的协调服务。作用：配置管理、分布式锁、集群管理zookeeper是一个树形数据结构。每一个节点被称为ZNode，每个节点会保存自己的数据和节点信息，并允许少量的数据存储到节点下。节点分为四类：persistent 持久化节点ephemeral 临时节点：-

overfit同步小助手 2024-01-25 19:03:51 0 收藏

RabbitMQ初级的部分面试题

RabbitMQ初级的学习心得

overfit同步小助手 2024-01-25 19:03:15 0 收藏

[PySpark学习]RDD的转换（Transformation）与动作算子（Action）

RDD（英文全称Resilient Distributed Dataset），即弹性分布式数据集是spark中引入的一个数据结构，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。Resilient弹性：RDD的数据可以存储在内存或者磁盘当中，RDD的数据可以分区。

overfit同步小助手 2024-01-25 18:03:51 0 收藏

RabbitMQ之交换机

RabbitMQ 中的交换机（Exchange）是消息的分发中心，负责将消息发送到一个或多个队列。它接收生产者发送的消息并将这些消息路由到消息队列中。

overfit同步小助手 2024-01-25 18:03:30 0 收藏

RabbitMQ 常见问题

在RabbitMQ中，消息最终会保存在队列中，在同一个队列中，消息是顺序的，保持先进先出的原则，这个由Rabbitmq保证。如果消息已经被消费者消费了，只是在消费者返回ack确认信息的时候出现异常，导致ack信息未能发送到broker，从而导致RabbitMQ不清楚这条消息到底有没有被消费成功，消息

overfit同步小助手 2024-01-25 18:03:25 0 收藏

大数据：分类算法深度解析

大数据分类算法是处理海量数据、从中提取有用信息的关键工具。本文深入探讨了分类算法的基本原理、常见算法以及它们在不同领域的应用。通过案例分析，我们了解了如何使用决策树、支持向量机和神经网络等算法解决实际问题，并通过代码示例展示了它们在Python中的实现。未来，大数据分类算法的发展趋势包括深度学习的应

overfit同步小助手 2024-01-25 17:03:22 0 收藏

使用 Kafka 和 CDC 将数据从 MongoDB Atlas 流式传输到 SingleStore Kai

在本文中，我们将了解如何将 Apache Kafka 代理连接到 MongoDB Atlas，然后使用 CDC 解决方案将数据从 MongoDB Atlas 流式传输到 SingleStore Kai。我们还使用 Metabase 创建了一个快速的可视化仪表板，以帮助我们深入了解我们的广告活动。为了

overfit同步小助手 2024-01-25 15:03:49 0 收藏

整合MQ-----RabbitMQ

个体自学内容如有错误请指正

overfit同步小助手 2024-01-25 15:03:40 0 收藏

从Dinky聊聊Flink的二次开发

这几天研究了一下Dinky，确实是一款很不错的软件，功能很强大，也很实用，可以极大的方便我们flink sql的开发工作，同时他也支持其他一些主流数据库的SQL,像starrocks。Dinky号称基于Flink二次开发，没有侵入Flink,所以这一点就值得我们学习，为了了解Dinky我自己也搭建了

overfit同步小助手 2024-01-25 15:03:33 0 收藏

Spark SQL进阶

spark sql 深度介绍,spark_dataFrame与pandas_dataFrame互转,基于pandas的完成自定义UDF函数,UDAF函数

overfit同步小助手 2024-01-25 13:03:52 0 收藏

【HBase】——原理简介

HBase 原理简介

overfit同步小助手 2024-01-25 13:03:44 0 收藏

Clojure 实战(4)：编写 Hadoop MapReduce 脚本

众所周知，我们已经进入了大数据时代，每天都有PB级的数据需要处理、分析，从中提取出有用的信息。Hadoop就是这一时代背景下的产物。它是Apache基金会下的开源项目，受Google两篇论文的启发，采用分布式的文件系统HDFS，以及通用的MapReduce解决方案，能够在数千台物理节点上进行分布式并

overfit同步小助手 2024-01-25 13:03:36 0 收藏

Flink系列之：Upsert Kafka SQL 连接器

更准确地说，数据记录中的 value 被解释为同一 key 的最后一个 value 的 UPDATE，如果有这个 key（如果不存在相应的 key，则该更新被视为 INSERT）。总之，这段代码的作用是通过Kafka连接器创建两个表，并将"pageviews"表中的数据计算出每个地区的pv和uv，并

overfit同步小助手 2024-01-25 12:03:49 0 收藏

RabbitMQ 部署与配置[CentOS7]

【代码】RabbitMQ 部署与配置[CentOS7]

overfit同步小助手 2024-01-25 12:03:37 0 收藏

wsl kafka的简单应用

本文介绍了wsl下jdk、kafka的安装过程，并演示了主题，生产者，消费者的创建

overfit同步小助手 2024-01-25 11:03:51 0 收藏

RabbitMQ 核心概念(交换机、队列、路由键)，队列类型等介绍

RabbitMQ 是一个开源的消息代理（Message Broker），用于在应用程序之间传递消息。它实现了高级消息队列协议（AMQP），提供了可靠的消息传递和消息路由机制，以支持分布式系统的开发。AMQP：AMQP（Advanced Message Queuing Protocol）是一种协议，用

overfit同步小助手 2024-01-25 11:03:27 0 收藏

RabbitMQ高级特性

消息的可靠性保证：保证消息在传输过程中不会出现消息丢失的情况，确保发送的消息至少被消费一次。

overfit同步小助手 2024-01-25 10:03:47 0 收藏