大数据 - overfit.cn

Kafka 为什么Kafka 为什么要抛弃 Zookeeper？要抛弃 Zookeeper？

本文，我们分析了为什么 Kafka 要移除 ZooKeeper，主要原因有两个：ZooKeeper不能满足 Kafka的发展以及 Kafka想创建自己的生态。在面临越来越复杂的数据流处理需求时，KRaft 模式为 Kafka 提供了一种更高效、简洁的架构方案。不论结局如何，Kafka 和 ZooKe

overfit同步小助手 2024-10-21 18:03:52 0 收藏

linux线程 | 同步与互斥 | 深度学习与理解同步

linux线程——同步与互斥 | 同步！！！！

overfit同步小助手 2024-10-21 17:03:51 0 收藏

828华为云征文 | 使用华为云X实例部署图数据库Virtuoso并存储6500万条大数据的完整过程与性能测评

在大数据时代，图数据库以其强大的关系处理能力在复杂网络、社交媒体分析、知识图谱等领域得到了广泛应用。而在云计算的蓬勃发展下，使用云服务器进行图数据库的部署与管理变得更加方便高效。本篇文章将详细介绍如何在华为云X实例上部署开源图数据库Virtuoso，并将6500万条大数据存储于其中，最后对数据库的性

overfit同步小助手 2024-10-21 17:03:29 0 收藏

谷粒商城のRabbitMQ基础篇

介绍Rabbit MQ概念，组件，创建队列交换机，发送监听消息，交换机的三种模式，如何保证消息可靠性

overfit同步小助手 2024-10-21 17:03:19 0 收藏

大数据新视界 --大数据大厂之深度优化 Alluxio 分层架构：提升大数据缓存效率的全方位解析

本文围绕 Alluxio 分层架构优化提升大数据缓存效率展开。阐述其管理层与工作层功能，探讨分层架构优势。提出元数据和存储层优化策略并细化操作，结合电商案例展示效果，探讨安全与兼容性考量，最后互动提问以交流经验。

overfit同步小助手 2024-10-21 15:04:21 0 收藏

详解zookeeper四字命令

ZooKeeper 的四字命令（Four-Letter Words, 4LW）是一组简单的管理和监控命令，方便运维人员快速获取 ZooKeeper 集群和节点的运行状态。这些命令通常用于健康检查、性能监控、节点配置查看等操作。通过这些命令，可以轻松获取关于 ZooKeeper 服务的关键信息。四字命

overfit同步小助手 2024-10-21 15:03:58 0 收藏

大数据比对，shell脚本与hive技术结合

从主机中获取加密数据内容，解密数据内容（可能会存在json解析）插入到另一个库中，比对原始库和新库的相同表数据的数据一致性内容。

overfit同步小助手 2024-10-21 14:03:30 0 收藏

Flink系统架构和应用部署方式

Flink系统架构包括JobManager、TaskManager、算子、Task和Subtask介绍。同时还介绍了Flink的三种应用部署方式，包括Flink Session模式、Flink Job模式和Flink Application模式。

overfit同步小助手 2024-10-21 13:03:45 0 收藏

大数据技术与应用课程设计基于 Spark的出租房屋大数据分析

类型2-面积适中，租金适中，适合合租、一家人租住；在实现这个项目的过程中，我认为最重要的是对数据的预处理，通过对数据进行清洗和去重，可以保证得到准确的分析结果。此次项目是分析广东七地二手房的房子情况，数据是来自链家的二手房，此次的爬取的数据是2023年5月最新的数据，数据包含了十个字段，都是爬取后

overfit同步小助手 2024-10-21 13:03:30 0 收藏

戎易大数据 | 数据分析实操篇：基于MySQL和Tableau的淘宝用户购物行为数据分析

为提高平台GMV和实现精细化运营，本项目首先使用MySQL（实际上是用Navicat Premium连接了MySQL，方便数据导入）对来自某电商的数据集进行数据预处理，然后通过多维度拆解，从用户和商品两个大的角度分别进行分析，最后借助Tableau搭建仪表盘实现数据可视化。

overfit同步小助手 2024-10-21 12:03:48 0 收藏

【Iceberg分析】Spark与Iceberg集成之常用存储过程

数据文件越多，存储在清单文件中的元数据也就越多，而数据文件过小则会导致不必要的元数据量和文件打开成本，从而降低查询效率。catalog_name代表catalog的名称，procedure_name代表存储过程的名称，参数可以通过指定参数名的方式入参，也可以使用位移的方式入参。由于表迁移功能的风险较

overfit同步小助手 2024-10-21 10:03:57 0 收藏

MySQL 和 Kafka 之间的数据同步通常是为了实现数据的实时处理和分析。以下是几种常见的实现数据同步的方法

Debezium 是一个分布式平台，用于捕获数据库的变更并将更改事件以流的形式输出到 Kafka。它提供了 MySQL 的连接器，可以实时监控 MySQL 的二进制日志（binlog），并将数据变更作为消息发送到 Kafka。它提供了 MySQL 的连接器，可以实时监控 MySQL 的二进制日志（b

overfit同步小助手 2024-10-21 09:03:51 0 收藏

Springboot项目整合RabbitMQ+Redis实现可靠的阿里云短信异步收发功能(手把手实操详细教程)

以下是一个完整的 Spring Boot 项目案例，整合 RabbitMQ 实现阿里云短信异步收发，并将发送情况存入数据库，同时使用 Redis 缓存验证码；这个项目旨在实现一个可靠的短信发送系统，结合了多种技术来确保短信的高效发送和管理。通过以上的设计和实现，这个项目可以实现可靠的短信发送功能，并

overfit同步小助手 2024-10-21 09:03:41 0 收藏

Kafka Connect Elasticsearch Connector：高效数据同步的利器

Kafka Connect Elasticsearch Connector：高效数据同步的利器 kafka-connect-elasticsearch Kafka Connect Elasticsearch connector

overfit同步小助手 2024-10-21 09:03:20 0 收藏

Hadoop 2.7.1 Windows 7 64位环境下组件下载指南

本文还有配套的精品资源，点击获取简介：Hadoop是一个开源分布式计算框架，适用于处理和存储大规模数据集。本文主要介绍Hadoop 2.7.1版本在Windows 7 64位系统上的使用，包括关键组件hadoop.dll和winutils.exe的配置。尽管Hadoop最初设计为运行在Linu

overfit同步小助手 2024-10-21 08:06:21 0 收藏

RabbitMQ

同步通讯，例打视频，一次只能一人。异步通讯，例发消息，可以多人。现实场景如果用户每次登录都要等待发送消息完成后才结束，性能差。可以把登录信息放入MQ，风控服务去监听，这样大大提高了用户登录的效率。

overfit同步小助手 2024-10-21 08:06:03 0 收藏

大数据-178 Elasticsearch Query - Java API 索引操作 & 文档操作

通过 Java API，可以向特定索引插入单个文档，并指定文档的 ID（如果不指定，Elasticsearch 会自动生成一个 ID）。获取文档：Java API 可以根据文档 ID 从索引中获取单个文档，返回的结果会包含文档的元数据信息，如 _id、_index、_version 等。获取索引信息

overfit同步小助手 2024-10-21 08:04:58 0 收藏

【RabbitMQ】RabbitMq消息丢失、重复消费以及消费顺序性的解决方案

主要就是一个幂等性的一个问题（无论是一个操作执行多少次，产生的结果合执行一次是相同的），解决方案有几个方面：数据库层面、业务层面、分布式系统层面。主要是有三种情况：生产者消息未发送到服务端、服务端消息没有做持久化导致丢失、消费端未收到消息。，主要有以下几个层面来解决：生成者层面，消费队列层面、消费者

overfit同步小助手 2024-10-21 06:03:50 0 收藏

消息队列RabbitMQ

消息队列是一种在分布式系统中常用的通信机制，简称为MQ，它允许不同的应用程序或服务之间通过发送和接收消息来进行异步通信。对于小型企业而言，出于成本考虑，我们通常只会搭建一套MQ集群，公司内的多个不同项目同时使用。由于没有消费者存在，最终消息丢失了，这样说明交换机没有存储消息的能力。发送到交换机的消息

overfit同步小助手 2024-10-21 06:03:46 0 收藏

大数据新视界 --大数据大厂之图数据库与大数据：挖掘复杂关系的新视角

本文深入且生动地探讨图数据库与大数据融合，详细阐述基础原理、应用优势、案例展示、性能优化及挑战应对。通过金融、社交、知识图谱、电商等多领域案例结合丰富代码示例呈现独特价值，引入相关文章拓展视野，为开发者提供全面认知，助力利用图数据库挖掘复杂关系。并且对图数据库的未来发展进行了前瞻性探讨，包括与新兴技

overfit同步小助手 2024-10-21 06:03:18 0 收藏