RabbitMQ保证消息的可靠性
如何保证RabbitMQ的消息可靠性
flink连接kafka
flink 连接kafka (基础篇)
Flink:流上的“不确定性”(Non-Determinism)
先明确一下什么叫“确定性”:对于一个“操作”来说,如果每次给它的“输入”不变,操作输出的“结果”也不变,那么这个操作就是“确定性“的。通常,我们认为批处理的操作都是确定的,比如针对一张 clicks 表,假如表中的数据没有变化,无论我们执行多少次 SELECT * FROM clicks 操作,它的
RabbitMQ详解与Java实现
两个服务调用时,我们可以通过传统的HTTP方式,让服务A直接去调用服务B的接口,但是这种方式是同步的方式,虽然可以采用SpringBoot提供的@Async注解实现异步调用,但是这种方式无法确保请求一定回访问到服务B的接口。那如何保证服务A的请求信息一定能送达到服务B去完成一些业务操作呢?
Jupyter Notebook Python, Scala, R, Spark, Mesos
在Docker中运行Jupyter/Spark/Mesos服务。来源[英]:https://github.com/jupyter/docker-stacks/tree/master/all-spark-notebookSpark on Docker,基于Jupyter Notebook Python
从零开始了解大数据(六):数据仓库Hive篇
Apache Hive是一个强大的数据仓库工具,它利用Hadoop的能力,提供了一种高效且简单的类SQL查询语言,使得对大规模数据的分析和查询变得简单而高效。同时,Hive的架构使其具有很好的扩展性,可以轻松地添加新的功能和优化现有的功能。随着大数据技术的不断发展,Apache Hive在未来的发展
spark withColumn的使用(笔记)
withColumn():是Apache Spark中用于DataFrame操作的函数之一,它的作用是在DataFrame中添加或替换列,或者对现有列进行转换操作和更新等等。
Zookeeper的性能优化实践
1.背景介绍1. 背景介绍Apache Zookeeper是一个开源的分布式协调服务,它提供了一种可靠的、高性能的协同机制,用于构建分布式应用程序。Zookeeper的核心功能包括:集群管理、数据同步、配置管理、领导选举等。在分布式系统中,Zookeeper被广泛应用于实现一致性哈希、分布式锁、分布
Spark 基础概念
Spark1. Spark基础概念1.1 Spark概述1.2 Spark 四大特点运行速度快1.3 Spark 框架1.4 Spark 运行模式集群模式1.5 spark-shell1.6 Spark Application程序1.6 Spark Standalone集群模式 介绍Standalo
【天衍系列 01】深入理解Flink的 FileSource 组件:实现大规模数据文件处理
旨在帮助读者快速了解Flink的FileSource基础概念以及相关的集成方法,提高开发效率
Flink流批一体计算(23):Flink SQL之多流kafka写入多个mysql sink
WITH提供了一种编写辅助语句以用于更大的查询的方法。这些语句通常被称为公共表表达式(CTE),可以被视为定义仅针对一个查询存在的临时视图。json.fail-on-missing-field:在json缺失字段时是否报错。json.ignore-parse-errors:在解析json失败时是否报
Zookeeper 集群安装
(Load Balance)是分布式系统架构设计中必须考虑的因素之一,它通常是指,将请求/数据【均匀】分摊到多个操作单元上执行,负载均衡的关键在于【均匀】。常见互联网分布式架构如上,分为客户端层、反向代理nginx层、站点层、服务层、数据层。NginxNginx的负载均衡配置(1)把多个web se
【大数据Hive】hive 多字段分隔符使用详解
hive 多字段分隔符使用详解
Zookeeper的持久性与一致性原理
1.背景介绍1. 背景介绍Apache Zookeeper 是一个开源的分布式协调服务,用于构建分布式应用程序。它提供了一种可靠的、高性能的协调服务,以解决分布式系统中的一些复杂问题,如集群管理、数据同步、负载均衡等。Zookeeper 的核心功能包括:原子性操作:实现分布式环境下的原子性操作,确保
微服务架构中的关键组件:Dubbo、Nacos、Feign 和 Eureka
在选择微服务组件时,应考虑你的具体需求和技术栈。Dubbo、Nacos 和 Eureka 各有千秋,它们可以独立使用,也可以根据实际需要组合使用。例如,可以在 Dubbo 架构中使用 Nacos 作为服务注册中心和配置中心,或者在 Spring Cloud 架构中使用 Eureka 作为服务发现组件
【30秒看懂大数据】数据中台
一区:我把2桌宴客菜所需要的食材全部拿了出来,包括了从网上买的牛肉、羊排,也包括了从超市采购来的猪肉、意大利面条及蔬菜等等,还有一些从菜市场买来的海鲜、鱼虾等材料,为了方便分类清洗,我将2桌菜所有的食材都放到了这个区,以便找专门的人来清洗。中台是相对于前台和后台而言,数据中台就是对于数据进行加工、整
Hadoop分布式集群安装
Hadoop分布式集群安装
HBase的数据校验与数据完整性
1.背景介绍1. 背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统,基于Google的Bigtable设计。它是Hadoop生态系统的一部分,可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase的数据校验和数据完整性是其核心特性之一,可以确保存储在HBase中的数
03-黑马程序员大数据开发:Apache Hive
1. 目的:了解什么是分布式SQL计算;了解什么是Apache Hive2. 使用Hive处理数据的好处操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手底层执行MapReduce,可以完成分布式海量数据的SQL处理3. 什么是分布式SQL计算?以分布式的形式,执行SQL语句,进行数
Java大数据处理与Hadoop
1.背景介绍大数据处理是指处理和分析大量、高速、不断增长的数据,这些数据通常来自不同的来源,如网络、传感器、数据库等。随着互联网和人工智能的发展,大数据处理已经成为现代科学和工程的重要组成部分。Java是一种广泛使用的编程语言,它的强大的性能和跨平台性使得它成为大数据处理领域的首选。Hadoop是一