大数据 - overfit.cn

flinkcdc 原理 + 实践

flinkcdc 1.* 痛点flinkcdc 2.* 优点flinkcdc 原理flink cdc datastream / flinkcdc sql 使用

overfit同步小助手 2024-03-03 09:03:52 0 收藏

Kafka生产与消费详解

代码见：代码中使用到了自定义序列化。id的长度4个字节，字符串的长度描述4个字节，字符串本身的长度nameSize个字节自定义序列化容易导致程序的脆弱性。举例，在我们上面的实现里，我们有多种类型的消费者，每个消费者对实体字段都有各自的需求，比如，有的将字段变更为long型，有的会增加字段，这样会出

overfit同步小助手 2024-03-03 09:03:45 0 收藏

NineData：从 Kafka 到 ClickHouse 的数据同步解决方案

需要处理和分析大量日志数据的应用，例如系统监控、安全审计等，可以使用此功能将日志数据从 Kafka 同步到 ClickHouse，利用 ClickHouse 的高效查询能力进行深度分析。： NineData 提供了强大的数据转换和映射功能，以解决 Kafka 和 ClickHouse 之间的格式和结

overfit同步小助手 2024-03-03 09:03:25 0 收藏

用Python实现一个大数据搜索引擎

搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能，试图让大家理解大数据搜索的基本原理。布隆过滤器 (Bloom Filter)第一步我们先要实现一个布隆过滤器。布隆过滤器是大数据领域的一个常见算法，

overfit同步小助手 2024-03-03 08:03:55 0 收藏

CVE-2023-34040 Kafka 反序列化RCE

漏洞描述Spring Kafka 是 Spring Framework 生态系统中的一个模块，用于简化在 Spring 应用程序中集成 Apache Kafka 的过程，记录 (record) 指 Kafka 消息中的一条记录。受影响版本中默认未对记录配置ErrorHandlingDeseriali

overfit同步小助手 2024-03-03 08:03:40 0 收藏

Spark3的新特性

Spark3新特性

overfit同步小助手 2024-03-03 07:03:31 0 收藏

【Django开发】0到1开发美多shop项目：短信验证码和RabbitMQ。全md文档笔记（附代码文档）

本系列文章md笔记（已分享）主要讨论django商城项目相关知识。项目利用Django框架开发一套前后端不分离的商城项目含代码和文档。功能包括前后端不分离，方便SEO。采用Django Jinja2模板引擎 Vue.js实现前后端逻辑，Nginx服务器（反向代理）Nginx服务器（静态首页、商品

overfit同步小助手 2024-03-03 07:03:13 0 收藏

ZooKeeper 实战

这篇文章简单给演示一下 ZooKeeper 常见命令的使用以及 ZooKeeper Java客户端 Curator 的基本使用。介绍到的内容都是最基本的操作，能满足日常工作的基本需要。如果文章有任何需要改善和完善的地方，欢迎在评论区指出，共同进步！

overfit同步小助手 2024-03-03 06:03:37 0 收藏

Zookeeper

Zookeeper是一个树形目录服务，是一个基于观察者模式设计的分布式、开源应用程序协调服务，可存储数据和接受注册。一旦数据发生变化，Zookeeper负责通知已注册的节点。主要功能：配置管理、分布式锁、集群管理Zookeeper：一个leader和多个follower组成集群Zookeeper集群

overfit同步小助手 2024-03-03 04:03:52 0 收藏

【云原生进阶之PaaS中间件】第四章RabbitMQ-3-RabbitMQ安装

要在Linux环境下安装RabbitMQ，首先我们要有一个Linux环境，此处我们使用CentOS7虚拟机进行演示。如果本地还没有装过虚拟机，可以参考我之前的文章搭建虚拟机环境：VMware Workstation 14安装教程、虚拟机环境搭建（VMware Workstation14 + cent

overfit同步小助手 2024-03-03 03:03:46 0 收藏

springboot使用@KafkaListener监听多个kafka配置

背景: 使用springboot整合kafka时, springboot默认读取配置文件中 spring.kafka...配置初始化kafka, 使用@KafkaListener时指定topic即可, 当服务中需要监听多个kafka时, 需要配置多个kafka, 这种方式不适用。4. @KafkaL

overfit同步小助手 2024-03-03 03:03:39 0 收藏

Spark on YARN部署模式保姆级教程

没有最好的部署模式，具体要根据实际需求进行部署，由于Spark可以和Hadoop部署在一起，相互协作，Hadoop的HDFS，HBase负责数据存储与管理，Spark负责数据的计算，所以本文将详细讲解Spark on YARN模式的部署。这两种模式的选择取决于实际需求和使用环境，例如，学习、调试阶段

overfit同步小助手 2024-03-03 03:03:30 0 收藏

大数据python卷积神经网络基于知识图谱的智能推荐系统flask协同过滤算法

本次以Python语言为主要的开发语言，以flask框架为主开发框架，后台的数据库通过以MySQL来进行搭建，实现一款基于B/S结构的知识图谱智能推荐系统的开发，通过这款系统的开发能够实现通过歌名、电影名或者是书名来查找相关的信息介绍，通过深度学习的加入来扩展相关内容的有效应用。关键词：知识图谱

overfit同步小助手 2024-03-03 02:03:49 0 收藏

消息中间件篇之RabbitMQ-延时队列

进入队列的消息会被延迟消费的队列。场景：超时订单、限时优惠、定时发布。

overfit同步小助手 2024-03-03 02:03:38 0 收藏

弱结构化日志 Flink SQL 怎么写？SLS SPL 来帮忙

本文介绍一种使用 SLS SPL 配置 SLS Connector 完成数据结构化的方案，覆盖日志清洗与格式规整场景。

overfit同步小助手 2024-03-03 02:03:19 0 收藏

Kafka如何保证消息的消费顺序【全局有序、局部有序】、Kafka为什么这么快？【重点】

此时，Partition的数量仍然可以设置多个，提升Topic的整体吞吐量。没有指明 partition 值但有 key 的情况下，将 key 的 hash 值与 topic 的 partition数进行取余得到 partition 值；在不增加partition数量的情况下想提高消费速度，可以考虑

overfit同步小助手 2024-03-03 01:03:23 0 收藏

48 | DMA：为什么Kafka这么快？

讲到这里，相信对 DMA 的原理、作用和效果都有所理解了。那么，我们一起来回顾总结一下。如果我们始终让 CPU 来进行各种数据传输工作，会特别浪费。一方面，我们的数据传输工作用不到多少 CPU 核心的“计算”功能。另一方面，CPU 的运转速度也比 I/O 操作要快很多。所以，我们希望能够给 CPU“

overfit同步小助手 2024-03-02 23:03:55 0 收藏

第3、4章 Kafka 生产者和消费者 ——向 Kafka 写入数据和读取数据

点对点模型：适用于一对一的消息传递，具有高可靠性。发布/订阅模型：适用于广播消息给多个消费者，实现消息的广播。主题模型：适用于根据消息的主题进行灵活的过滤和匹配，处理复杂的消息路由需求。

overfit同步小助手 2024-03-02 23:03:12 0 收藏

ZooKeeper 实战(三) SpringBoot整合Curator-开发使用篇

Curator是Apache软件基金会下的一个开源框架，目前是Apache下的顶级项目。Curator起初是 Netflix公司开源的一套ZooKeeper客户端框架，后捐献给Apache。和 ZkClient一样，它解决了非常底层的细节开发工作，包括连接、重连、反复注册Watcher的问题以及 N

overfit同步小助手 2024-03-02 22:03:11 0 收藏