分布式 - overfit.cn

Hadoop面试题01

磁盘IO（正解），CPU，内存，网络带宽。

overfit同步小助手 2024-11-28 22:03:50 0 收藏

数据仓库宽表概述

此外，在数据更新时，宽表可能需要进行大量的数据重建操作，这会增加系统的负担。由于宽表可以显著提高查询性能，因此在需要实时或近实时分析的场景中，宽表是一个理想的选择。比如，在金融行业中，交易数据的实时分析对于决策和风险控制至关重要，宽表可以提供快速的数据访问，从而支持实时分析。尽管存在一些挑战，但随着

overfit同步小助手 2024-11-28 17:03:20 0 收藏

KeyarchOS适配rabbitmq 3.9.13

出现报错/usr/lib/tmpfiles.d/rabbitmg-server.conf:11 Line references path below legacy directory /var/run/, updating /var/run/rabbitmq - /run/rabbitmq;这时执行

overfit同步小助手 2024-11-28 08:03:44 0 收藏

SnapshotScanMR速度比TableScanMR快10~30倍，那Spark如何实现SnapshotScanMR

HBase 提供的和是两种用于在大数据集中进行扫描的 MapReduce 作业，网上也有很多介绍Spark如何实现TableScanMR，但是对SnapshotScanMR的实现方式很少几乎没找到可用的，接下来我们先说说这两者的一些共同点以及不同的实现原理，再介绍Spark是如何实现的。

overfit同步小助手 2024-11-28 05:03:46 0 收藏

高并发场景下的热点key问题探析与应对策略

当今高并发场景下，热点key问题成为影响系统性能和稳定性的关键挑战。本文探讨了热点key问题的定义及其在分布式系统中的常见表现，如流量集中、缓存分片打垮等。针对这些问题，本文提出了多级缓存策略、多副本策略和热点key拆分与动态分散策略作为有效应对措施。这些策略不仅能显著减轻单点负载压力，还能提升系统

overfit同步小助手 2024-11-28 05:02:23 0 收藏

kafka夺命三十问——16-22问

overfit同步小助手 2024-11-28 04:03:42 0 收藏

RabbitMQ中如何管理和限制队列的大小？

在RabbitMQ中管理和限制队列的大小是一项重要的任务，以确保系统在面对大量消息时依然能够稳定运行，并且避免因为队列过大而占用过多的内存或磁盘空间。

overfit同步小助手 2024-11-27 21:03:46 0 收藏

python如何使用Rabbitmq

RabbitMQ是一个开源的消息中间件，基于AMQP（Advanced Message Queue Protocol，高级消息队列协议）协议实现。RabbitMQ被广泛应用于各种应用场景，如异步任务处理、日志传输、实时消息推送等。在微服务架构中，RabbitMQ是一个常见的消息中间件选择，它可以帮助

overfit同步小助手 2024-11-27 11:03:37 0 收藏

Apache Dolphinscheduler：一个开源的分布式工作流调度系统

Apache DolphinScheduler 是一个开源的分布式工作流调度系统，主要用于数据处理和任务调度。它支持多种数据源和任务类型，能够帮助用户在大数据环境中进行复杂的工作流管理。

overfit同步小助手 2024-11-27 02:05:18 0 收藏

使用Debezium、Kafka实现Elasticsearch数据同步

能够监控各种数据库（如 MySQL、PostgreSQL、Oracle 等）的事务日志（如 MySQL 的 Binlog、PostgreSQL 的 WAL）。Debezium 将数据库中的数据更改事件（例如插入、更新、删除操作）转换为事件流消息，这些消息可以被发送到消息队列（通常是 Kafka）中。

overfit同步小助手 2024-11-27 01:03:08 0 收藏

【大数据】Linux环境下分布式大数据框架安装部署流程（更新中）

Linux环境下分布式大数据框架安装部署流程（离线）：JDK、Scala→Hadoop→Spark、Flink→Kafka

overfit同步小助手 2024-11-26 23:03:28 0 收藏

从一到无穷大 #37 Databricks Photon：打响 Spark Native Engine 第一枪

The execution engine needs to provide good performance on the raw uncurated datasets that are ubiquitous in data lakes, and excellent performance on

overfit同步小助手 2024-11-26 22:03:42 0 收藏

hadoop-teragen库的使用

hadoop jar /opt/module/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.4.jar（使用的jar包的路径） teragen 10000000 （使用代码） /teragen/data（存放结果的hdfs路

overfit同步小助手 2024-11-26 20:03:19 0 收藏

RabbitMQ 面试题

无法被消费的消息，称为死信。

overfit同步小助手 2024-11-26 19:03:45 0 收藏

【kafka-02】kafka集群搭建

kafka集群搭建

overfit同步小助手 2024-11-26 18:03:33 0 收藏

基于Hadoop的共享单车分布式存储与计算

共享单车的普及带来了便利，但也引发了数据管理的挑战。随着市场竞争加剧，大量资金涌入，导致共享单车数量激增，品牌众多。这种情况下，有效管理和分析海量数据成为一个关键问题。本项目利用Hadoop技术对共享单车数据进行分布式存储和计算。我们收集了10万条开源数据，包含用户类型、活跃程度、地理位置、消费水平

overfit同步小助手 2024-11-26 17:03:44 0 收藏

Hadoop核心技术

Hadoop是一个由Apache基金会所开发的分布式系统基础架构，它允许用户在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。

overfit同步小助手 2024-11-26 12:03:49 0 收藏

在Kafka3.7.0中进行SASL_SCRAM认证配置_不使用自带zookeeper

kafka3.7.0 sasl_scram 使用单独下载的zookeeper

overfit同步小助手 2024-11-26 11:03:52 0 收藏

kafka ，RabbitMQ ，EMQX 的区别

是一个分布式流处理平台，主要用于高吞吐量和低延迟的消息传递，最初由 LinkedIn 开发并贡献给 Apache 软件基金会。Kafka 适合于处理大量数据流，特别是在需要实时数据处理的应用场景中。RabbitMQ是一个开源的消息队列系统，基于AMQP（高级消息队列协议）开发，广泛用于企业级消息传递

overfit同步小助手 2024-11-26 10:03:52 0 收藏

RabbitMQ小白知识点全收录！不看就亏！

AMQP ： Advanced Message Queue，高级消息队列协议。它是应用层协议的一个开放标准，为面向消息的中间件设计，基于此协议的客户端与消息中间件可传递消息，并不受产品、开发语言等条件的限制。RabbitMQ 最初起源于金融系统，用于在分布式系统中存储转发消息，在易用性、扩展性、高可

overfit同步小助手 2024-11-26 09:05:40 0 收藏