Clojure 实战(4):编写 Hadoop MapReduce 脚本

众所周知,我们已经进入了大数据时代,每天都有PB级的数据需要处理、分析,从中提取出有用的信息。Hadoop就是这一时代背景下的产物。它是Apache基金会下的开源项目,受Google两篇论文的启发,采用分布式的文件系统HDFS,以及通用的MapReduce解决方案,能够在数千台物理节点上进行分布式并

Flink系列之:Upsert Kafka SQL 连接器

更准确地说,数据记录中的 value 被解释为同一 key 的最后一个 value 的 UPDATE,如果有这个 key(如果不存在相应的 key,则该更新被视为 INSERT)。总之,这段代码的作用是通过Kafka连接器创建两个表,并将"pageviews"表中的数据计算出每个地区的pv和uv,并

RabbitMQ 部署与配置[CentOS7]

【代码】RabbitMQ 部署与配置[CentOS7]

wsl kafka的简单应用

本文介绍了wsl下jdk、kafka的安装过程,并演示了主题,生产者,消费者的创建

RabbitMQ 核心概念(交换机、队列、路由键),队列类型等介绍

RabbitMQ 是一个开源的消息代理(Message Broker),用于在应用程序之间传递消息。它实现了高级消息队列协议(AMQP),提供了可靠的消息传递和消息路由机制,以支持分布式系统的开发。AMQP:AMQP(Advanced Message Queuing Protocol)是一种协议,用

RabbitMQ高级特性

消息的可靠性保证:保证消息在传输过程中不会出现消息丢失的情况,确保发送的消息至少被消费一次。

IDC 中国数字化转型盛典:兴业银行「基于悦数图数据库」的「智能大数据云平台」获奖

近日,2023 第八届 IDC 中国数字化转型年度盛典在北京盛大开幕。会上,IDC 中国为 2023 年度“IDC 中国未来企业大奖”卓越奖获奖企业颁奖。兴业银行凭借「基于悦数图数据库」的「智能大数据云平台」荣获“2023 IDC 中国未来企业大奖——未来数字基础架构领军者”殊荣。

消息队列选型:Kafka 如何实现高性能?

在分布式消息模块中,我将对消息队列中应用最广泛的 Kafka 和 RocketMQ 进行梳理,以便于你在应用中可以更好地进行消息队列选型。另外,这两款消息队列也是面试的高频考点。所以,本文我们就一起来看一下,Kafka 是如何实现高性能的。

Kafka中的enable-auto-commit和auto-commit-interval配置

Kafka中的enable-auto-commit和auto-commit-interval配置

ELK+kafka+filebeat企业内部日志分析系统

是一个基于Lucene的搜索服务器。提供搜集、分析、存储数据三大功能。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,

Hadoop3完全分布式搭建

1,Datanode相关界面负载信息2,这个查看 HDFS的相关信息。

Flink知识点概述

stream.keyBy() .window() .aggregate() 会话窗口,超过五秒没数据,自动生成新的窗口

RabbitMQ快速入门(详细)

Kafka是LinkedIn开源的分布式发布-订阅消息系统,目前归属于Apache顶级项目。Kafka主要特点是追求高吞吐量,一开始的目的就是用于日志收集和传输。0.8版本开始支持复制,不支持事务,对消息的重复、丢失、错误没有严格要求,适合产生大量日志数据的互联网服务的数据收集业务。

【大数据】Flink CDC 的概览和使用

Flink CDC 是一个开源的数据库变更日志捕获和处理框架,它可以实时地从各种数据库(如 MySQL、PostgreSQL、Oracle、MongoDB 等)中捕获数据变更并将其转换为流式数据。Flink CDC 可以帮助实时应用程序实时地处理和分析这些流数据,从而实现数据同步、数据管道、实时分析

大数据学习之Flink、快速搞懂Flink的容错机制!!!

的容错机制是确保数据流应用程序在出现故障时能够恢复的关键机制。这种机制通过创建分布式数据流和操作符快照来实现,这被称为检查点(Checkpoint)。当系统遇到故障,例如机器故障、网络故障或软件故障时,会回退到最后一个成功的检查点,然后重新启动所有的算子。这样可以确保即使在故障发生后,应用程序的状态

【Kafka】Suppressed: java.nio.file.AccessDeniedException问题的解决

【Kafka】Suppressed: java.nio.file.AccessDeniedException问题的解决

大数据关联规则挖掘:Apriori算法的深度探讨

Apriori算法是一种用于挖掘数据集中频繁项集的算法,进而用于生成关联规则。这种算法在数据挖掘、机器学习、市场篮子分析等多个领域都有广泛的应用。关联规则挖掘是数据挖掘中的一个重要分支,其目标是发现在一个数据集中变量间存在的有趣的关联或模式。假设在一个零售商的交易数据中,如果客户购买了啤酒,他们也很

Flink版本更新汇总(1.14-1.18)

Flink 版本更新汇总(1.14-1.18)

Flink学习笔记(三):Flink四种执行图

在 JobGraph 的基础上结合各算子的并行度生成的就是 ExecutionGraph (ExecutionGraph与 JobGraph 最大的区别就是按照并行度将每个算子的任务拆分成了多个并行的子任务,并明确了任务间数据传输的方式。:代表由一个 Task 的生成的数据,和 ExecutionG

Spark内核解析-内存管理7(六)

Spark内核解析-内存管理

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈