Flink 技术与应用(一)

是一个开源的大数据处理框架,其起源可以追溯到一个名为 Stratosphere 的研究项目,旨在建立下一代大数据分析引擎,2010 年,从 Stratosphere 项目中分化出了 Flink 的前身。到了 2014 年,Flink 项目被捐赠给了 Apache 软件基金会,并在同年 4 月成为 A

数据实时获取方案之Flink CDC

数据实时获取方案之Flink CDC

Hadoop之NN和2NN

NameNode启动时,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件和一个空的编辑日志。此时,NameNode开始监听DataNode请求。但是此刻,NameNode运行在安全模式,即N

Flink Sql和Flink DataStream的区别及使用场景

Apache Flink 是一个强大的分布式流处理框架,它提供了两种主要的编程 API:Flink SQL 和 Flink DataStream。尽管这两种 API 都可以用来处理实时数据流,但它们在设计目标、使用场景和编程方式上有显著的区别

RabbitMQ二、RabbitMQ的六种模式

主要了解rabbitmq的六种模式

hadoop_概念

指无法在一定时间范围内用常规软件工具进行捕管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、捉、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决,海量数据的采集、存储和分析计算问题。按顺序给出数据存储单位: bit、 Byte、KB、MB、GB、TB、PB、EB、

大数据python论文毕设开题报告怎么选

丹成学长,搜集分享最新的网络工程专业毕设毕设选题,难度适中,适合作为毕业设计,大家参考。相对容易工作量达标题目新颖🧿选题指导, 项目分享:见文末**毕设帮助, 选题指导, 项目分享: **

Spark-RDD和共享变量

每个Spark应用程序都由一个组成,该驱动程序运行我们编写的main函数,并在集群上执行各种操作。Spark提供的主要抽象是一个弹性分布式数据集,它是一个跨集群节点分区的元素集合,可以并行操作。RDD是通过从Hadoop文件系统(或任何其他Hadoop支持的文件系统)中的文件或中现有的Scala集合

高阶面试-hbase的整理

Region Server 是 HBase 最核心的模块,包含多个 Region,负责维护 Master 分配给它的 Region 集合,并处理对这些 Region 的读写操作,Client 直接与 Region Server 连接,并经过通信获取 HBase 中的数据。ColumnFamily一开

rabbitMQ的简单使用

RabbitMQ是一个开源的消息代理和队列服务器,主要用于在不同的应用程序之间传递消息。它基于AMQP(Advanced Message Queuing Protocol)协议,提供了一种可靠的方式来处理异步通信。RabbitMQ使用Erlang语言编写,具有高可用性、可伸缩性和可靠性。

【AI大数据计算原理与代码实例讲解】数据挖掘

1.背景介绍数据挖掘,这个概念在当今的世界中无处不在。从购物推荐、社交网络分析,到科学研究、医疗诊断,数据挖掘的应用广泛且深入。那么,数据挖掘究竟是什么?它是如何工作的?又如何在AI大数据计算中发挥作用的?这篇文章将为你揭开数据挖掘的神秘面纱。2.核心概念与联系数据挖掘是从大量的数据中通

数据仓库中的数据治理流程

数据仓库中的数据治理流程,包括策划、制定规则、執行、监控和改进等关键步骤,帮助读者了解并应用数据治理流程

玳数科技集成 Flink CDC 3.0 的实践

本文投稿自玳数科技工程师杨槐老师,介绍了 Flink CDC 3.0 与 ChunJun 框架在玳数科技的集成实践。

Flink State状态管理原理与代码实例讲解

1.背景介绍Apache Flink是一个开源流处理框架,用于大规模数据处理和分析。Flink具有高吞吐量、事件时间处理、精确一次处理语义等特性,被广泛应用于实时数据处理、历史数据分析等场景。在Flink中,状态管理是其核心功能之一,本文将对Flink中的状态管理进行深入的探讨和讲解。2.核心概念与

Prometheus监控ZooKeeper

ZooKeeper是一个分布式协调服务,在分布式系统中扮演着重要角色。为了确保ZooKeeper集群的健康运行,有效的监控至关重要。本文将详细介绍如何使用Prometheus监控ZooKeeper,包括安装配置、关键指标、告警设置以及最佳实践。

(UE4.26)UE4的FArchive序列化入门

序列化(Serialize)和反序列化(UnSerialize)是程序领域常见的概念。对于这两个词汇我理解的是序列化(Serialize): 变量值(等基本类型, 或者ArrayMap,或者更复杂的复合体)存储为一个文件(二进制流, 二进制文件, json, xml等格式)。反序列化(UnSeria

数据仓库面试题(二)

1. 简述星型模型和雪花模型的区别?应用场景 ?2. 简述数仓建模有哪些方式 ?3. 简述数仓建模的流程 ?4. 简述维度建模的步骤,如何确定这些维度的 ?5. 简述维度建模和范式建模区别 ?6. 简述维度表和事实表的区别 ?

zookeeper与kafka

消息队列:MQ在高并发环境下,同步的请求来不及处理,请求太多就会造成阻塞比如说大量请求并发到数据库,too many connection报错。消息队列,使用异步处理方式,可以缓解系统处理请求压力。zookeeper就是保存集群的元数据kafka工作流程消费者出现延迟或者处理能力太差,导致消息堆积。

Kafka架构详解之分区Partition

Apache Kafka 是分布式发布 - 订阅消息系统,在 kafka 官网上对 kafka 的定义:一个分布式发布 - 订阅消息传递系统。Kafka 最初由 LinkedIn 公司开发,Linkedin 于 2010 年贡献给了 Apache 基金会并成为顶级开源项目。Kafka 的主要应用场景

Spark实时(一):StructuredStreaming 介绍

SparkStreaming与Structured Streaming相比较,SparkStreaming是Spark最初的流处理框架,只能使用DStream算子编程,底层是RDD操作,而Structured Streaming是Spark2.0后退出的流式处理框架,处理支持Spark,底层操作是基

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈