使用Docker/Docker Compose 快捷安装Kafka

作者:沈自在。

数据同步工具对比——SeaTunnel 、DataX、Sqoop、Flume、Flink CDC

SeaTunnel是一个分布式、高性能、支持多种数据源之间高效数据同步的开源工具。它旨在解决大数据处理过程中的数据同步问题,支持实时数据处理和批量数据处理,提供了丰富的数据源连接器,包括Kafka、HDFS、JDBC等。DataX是阿里巴巴开源的一个异构数据源离线同步工具,主要用于在各种异构数据源之

涤生大数据实战:基于Flink+ODPS历史累计计算项目分析与优化(下)

计算链路较短,但如果发生Flink任务重启的情况,需要离线和实时两条线一起修复数据:离线补一次T-1数据到hbase + 离线初始化hbase中当日新用户数据为0 + Flink重启回拉消息位点到T日00:00,共计三步。非T日新增的老用户的数据在ODPS表里已存在,odps2hbase时会覆盖掉

Flink 源码剖析|3. UDF 接口与富函数

Flink 作业的数据流中的主要操作大部分都需要 UDF(user defined functions,用户自定义函数)。

【架构】Kafka 核心全面总结,高可靠高性能核心原理

为了实现强可靠的 kafka 系统,我们需要设置 Request.required.acks= -1,同时还会设置集群中处于正常同步状态的副本 follower 数量 min.insync.replicas>2,另外,设置 unclean.leader.election.enable=false 使

RabbitMQ——消息应答和持久化

在这种模式下,消息会按顺序逐个发送给消费者。在自动应答模式下,一旦消息被消费者接收,RabbitMQ 会立即将消息标记为已被消费,而不需要消费者明确地向 RabbitMQ 发送确认。在手动应答模式下,消费者在处理完消息之后,需要向 RabbitMQ 发送明确的确认信号,告诉 RabbitMQ 可以安

Hadoop学习总结(使用Java API操作HDFS)

使用HDFS提供的Java API构造一个访问客户端对象,然后通过客户端对象对HDFS上的文件进行操作(增、删、改、查)。

【手写数据库toadb】toadb物理存储模型,数据库物理存储原理,物理文件组织关系以及行列混合模型存储结构

我们的目标是手写一款数据库内核,希望提升我们对数据库机制的认识,同时也能提升我们编码能力,对编程语言的灵活应用,了解实际应用中的技巧,正所谓从书中来,到实践中去。数据库内核听起来很高升啊,大家千万不要被这个吓到,以为自己不适合,其实我们只是做一个基本架构,并不是面面俱到,只要是学会了C语言就可以跟本

RocketMQ与Kafka深度对比:特性与适用场景解析

在分布式系统中,消息队列作为解耦、缓冲和异步通信的关键组件,其选择对于系统的性能和稳定性至关重要。本文将详细对比RocketMQ与Kafka在数据可靠性、实时性、队列数与性能、消息顺序性、适用场景等方面的差异,帮助读者根据实际需求做出更明智的选择。而对于处理海量数据流的场景,Kafka则更具优势。这

大数据搭建

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

Flink的窗口操作及其应用场景

1.背景介绍Flink的窗口操作及其应用场景作者:禅与计算机程序设计艺术1. 背景介绍1.1 Streaming 数据处理Streaming 数据处理是当今许多应用程序所需要的一个重要功能。Streaming 数据指的是持续的、高速的数据流,如传感器数据、网络日志、交易记录等。随着互联网的普及和物联

大数据 - Spark系列《八》- 闭包引用

本文将深入探讨闭包引用的原理和应用。首先,我们将介绍闭包引用的概念及其副本的形成机制。随后,通过两个实例代码演示闭包引用在 Spark 中的具体应用场景。接下来,我们将讨论使用 Source.fromFile 和 sc.textFile 两种方法读取数据的差异和适用场景。最后,我们会总结闭包引用的注

消息队列-RabbitMQ:死信队列

为了保证订单业务的消息数据不丢失,需要使用到 RabbitMQ 的死信队列机制,当消息消费发生异常时,将消息投入死信队列中。还有比如说:用户在商城下单成功并点击去支付后在指定时间未支付时自动失效。死信的来源:消息 TTL 过期:TTL 是 Time To Live 的缩写,也就是生存时间。队列达到最

HiveSQL——共同使用ip的用户检测问题【自关联问题】

HiveSQL——共同使用ip的用户检测问题【自关联问题】

【Docker】docker常用命令

码头工人。

实时Flink的检查点与恢复机制

1.背景介绍在大规模数据处理系统中,实时性能是至关重要的。Apache Flink是一个流处理框架,可以处理大量实时数据,并提供高性能和低延迟的数据处理能力。为了确保系统的可靠性和容错性,Flink提供了检查点(Checkpoint)和恢复机制。本文将深入探讨Flink的检查点与恢复机制,揭示其核心

RabbitMQ-消息队列:发布确认高级

在生产环境中由于一些不明原因,导致 RabbitMQ 重启,在 RabbitMQ 重启期间生产者消息投递失败, 导致消息丢失,需要手动处理和恢复。于是,我们开始思考,如何才能进行 RabbitMQ 的消息可靠投递呢

Hadoop-Yarn-NodeManager如何计算Linux系统上的资源信息

Hadoop-Yarn-NodeManager都做了什么>中讲节点资源监控服务(NodeResourceMonitorImpl)时只是提了下SysInfoLinux,下面我们展开讲下SysInfoLinux是用于计算Linux系统上的资源信息的插件。

Zookeeper

环境准备:1. 三台虚拟机都需要安装: Zookeeper环境, 这个不用做了, 我给你装好了.2. 三台虚拟机都要配置path环境变量, 这个我没做, 需要你手动做.3. 分别在三台虚拟机中启动, 并查看 Zookeeper节点信息即可.zkServer.sh start | status | s

Hadoop的介绍与安装

HDFS是一个分布式文件系统:引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode,对数据进行分布式储存和读取。MapReduce是一个分布式计算框架:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算/Reduce计

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈