一篇讲明白 Hadoop 生态的三大部件

随着大数据时代的来临,处理和分析海量数据成为了一项重要的挑战。为了应对这一挑战,Hadoop生态系统应运而生。Hadoop生态系统是一个开源的、可扩展的解决方案,它由三大核心部件组成,分别是Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架(MapReduce)和Hadoop分布式存

用Spark在大数据平台DataBricks轻松处理数据

Apache Spark是一个强大的开源分布式计算系统,专为大规模数据处理而设计。而DataBricks则提供了一个基于云的环境,使得在Spark上处理数据变得更加高效和便捷。本文将介绍如何在DataBricks平台上使用Spark轻松处理大数据。DataBricks是一个基于云的大数据处理平台,它

RabbitMQ如何实现消费端限流

在 RabbitMQ 中,可以通过消费者端限流(Consumer Prefetch)来控制消费端处理消息的速度,以避免消费端处理能力不足或处理过慢而导致消息堆积。消费者端限流的主要目的是控制消费者每次从 RabbitMQ 中获取的消息数量,从而实现消息处理的流量控制。RabbitMQ 提供了一种 Q

Kafka 面试题及答案整理,最新面试题

Broker端使用序列号来识别和删除重复的消息。在Kafka中,Leader选举是关键的机制,用于在分区的多个副本(Replicas)之间选举出一个领导者(Leader)。Kafka的Broker是Kafka架构中的一个核心组件,是一个独立的服务器节点,负责存储数据和处理客户端请求。Kafka中的"

分布式事务,zookeeper,dubbo,rocketmq

CAP理论是分布式领域中非常重要的一个指导理论,C(Consistency)表示强一致性,A(Availability)表示可用性,P(Partition Tolerance)表示分区容错性,CAP理论指出在目前的硬件条件下,一个分布式系统是必须要保证分区容错性的,而在这个前提下,分布式系统要么保证

高冷学霸给我送了一周早餐竟是为了...我的Spark笔记?!!

速度快:由于ApacheSpark支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍,在硬盘中要快10倍易使用:Spark的版本已经更新到了Spark3.1.2(截止日期2021.06.01),支持了包括J

Kafka可用与可靠机制

如果一个follower在设定的replica.lag.time.max.ms时间周期内时刻保持与leader的数据更新,则认为该follower是同步的,它将被leader保留在ISR列表中,反之将被从ISR中剔除。是否允许将新leader切换到数据不同步的follower(故障切换时,uncle

深入了解Hadoop:特性与伪分布式运行进程

Hadoop是一个强大的分布式计算框架,它能够对大规模数据进行可靠、高效和可伸缩的处理。随着数据量的不断增长,企业对于处理大规模数据的需求也越来越高,Hadoop因此成为了大数据处理领域的首选技术。本文将深入探讨Hadoop的特性以及伪分布式运行启动后所具有的进程。

安装配置Kafka

一个典型的Kafka集群中包含若干Producer(可以是Web前端FET,或者是服务器日志等),若干Broker(Kafka支持水平扩展,一般Broker数量越多,集群吞吐率越高),若干ConsumerGroup,以及一个ZooKeeper集群。Producer使用push模式将消息发布到Brok

RabbitMQ消息重复的原因与解决方案

对于消息队列(MQ)来说,消息丢失/消息重复/消费顺序/消息堆积是比较常见的问题,都属于消息异常,这几个问题比较重要,面试中也会经常问到。

【Hadoop】 实践总结

本文将以离线批处理大数据为例,演示简单的Hadoop流程,不作过多理论概念介绍。具体内容具体可分为:1、文件导入Hdfs;2、MapReduce作业;3、Hive建模;4、Sqoop数据抽取。

SpringBoot3的RabbitMQ消息服务

配置一个fanout类型的交换器,不需要指定对应的路由键(Routing key),同时会将消息路由到每一个消息队列上,然后每个消息队列都可以对相同的消息进行接收存储,在同一交换器下的所有队列都将收到消息。配置一个direct类型的交换器,并指定不同的路由键值(Routing key)将对应的消息从

【数仓】Kafka消息可视化工具:Offset Explorer(原名kafka Tool)

Offset Explorer(以前称为Kafka Tool)是一个用于管理和使用Apache Kafka®集群的GUI应用程序。它提供了一个直观的界面,允许用户快速查看Kafka集群中的对象以及集群主题中存储的消息。它包含面向开发人员和管理员的功能。Offset Explorer仅供个人使用。未经

kafka的Docker镜像使用说明(wurstmeister/kafka)

在hub.docker.com网站上,Star最多的kafka镜像是wurstmeister/kafka,今天一起来实践这个镜像,使用此镜像搭建kafka环境,并且生产和消费消息;

Kafka SASL_SSL双重认证

kafka提供了多种安全认证机制,主要分为SASL和SSL两大类。在 Kafka 中启用 SASL_SSL 安全协议时,SASL 用于客户端和服务器之间的身份验证,SSL 则用于加密和保护数据的传输。不仅提供身份验证,还提供加密和数据保护的功能。因工作需要,需要在测试环境搭建一套基于SASL_SSL

Spark—GraphX实战 OneID

ID Mapping 是OneID 的提前,OneID 是ID Mapping 的结果,所以要想做OneID必须先做ID MappingOneID 是为了打通整个数据体系的数据,所以OneID 需要以服务的方式对外提供服务,在数仓里面就是作为基础表使用,对外的话我们就需要提供接口对外提供服务。

RabbitMQ 的高阶应用及可靠性保证

上篇文章介绍了 RabbitMQ 的基本概念和使用,这篇文章就来介绍下其高阶应用和可靠性保证。

使用Docker部署DataX3.0+DataX-Web

注意:datax_web:3.0.1镜像已经整合了datax3.0和datax-web,整合后的镜像大小约990M。1、准备基础镜像,开通所需端口。

RabbitMQ消息的重复消费问题

消息重复消费是分布式消息传递系统常见的一个问题。:设计消费者的消息处理逻辑,确保即使消息被多次消费也不会对系统造成不良影响。:在消息或处理逻辑中使用唯一标识符,并在消费者中实现去重检查。:通过手动确认(acknowledgment)消息,可以控制消费者何时确认消息,如果处理失败可以选择重新入队或者丢

浅谈 kafka

Kafka传统定义:kafka是一个分布式的基于发布/订阅模式的消息队列。Kafka最新定义:kafka用于构建实时数据处理系统,它具有横向扩展、高可用,速度极快等特点,已经被很多公司使用。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈