Flink常见面试题
基于本地集合的source(Collection-based-source)基于文件的source(File-based-source)基于网络套接字(socketTextStream)SourceFunction:非并行数据源(并行度只能=1) --接口RichSourceFunction:多功能
Spark入门到实践
Spark入门到实践
Day01_统一数仓介绍_FlinkCDC
1:什么是CDC监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
一文详解kafka知识点
传统定义:kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。发布/订阅:消息的发布者不会将消息直接发生给特定的订阅者。而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息。新定义:kafka是一个开源的分布式事件流平台(Event
Kafka创建主题时,究竟选--bootstrap-server还是--zookeeper?
3.需要注意的是,虽然--bootstrap-server和--zookeeperr都可以用于查看主题,但它们的用途和访问方式是不同的。另一种是kafka-topics.sh --create --bootstrap-server : --replication-factor 3 --partiti
如何配置 Flink CDC 连接 OceanBase 实现数据实时同步
Flink CDC 为我们提供了一种高效、可靠的数据同步解决方案,结合 OceanBase 的高性能数据库特性,可以满足各种实时数据处理场景的需求。在实际应用中,还可以根据具体情况进行更多的优化和扩展,如调整并行度、设置数据过滤规则等,以提高数据同步的性能和效率
Hive 函数(实例操作版2)
Hive 函数
Kafka 安全管理专家——Kafka-Security-Manager
Kafka 安全管理专家——Kafka-Security-Manager kafka-security-manager Manage your Kafka ACL at scale
Couchbase Lite for .NET 开源项目指南及常见问题解决方案
Couchbase Lite for .NET 开源项目指南及常见问题解决方案 couchbase-lite-net couchbase/couchbase-lite-net: Couchbase Lite .NET 是专为.NET
Flink和Spark的区别是什么?各自的应用场景是什么?
FlinkFlink 是一个分布式流处理框架,其架构基于流计算,将一切都看作是流。它采用了一种基于事件驱动的架构,数据以流的形式源源不断地进入系统,并且能够实时处理这些数据。例如,在实时监控网络流量的场景中,网络流量数据作为一个持续的数据流进入 Flink 系统,Flink 可以对每一个数据包(事件
kafka如何获取 topic 主题的列表?
kafka如何获取 topic 主题的列表?
RabbitMQ基础知识
消息队列(Message Queue),是基础数据结构中 “先进先出” 的一种数据结构。一般用来解决应用解耦、异步消息、流量削峰等问题,实现高性能、高可用、可伸缩和最终一致性架构。RabbitMQ可以理解为一个邮箱,或者一个邮局,或者是一个邮递员,保证 “张三” 的信件最终传递给 “李四”。Rabb
三款Zookeeper可视化工具推荐:提升集群管理效率
三款Zookeeper可视化工具推荐:提升集群管理效率 三款Zookeeper可视化工具ZooInspectorprettyZooZooKeeperAssistant
Spark核心架构设计及技术原理实现
胡弦,视频号2023年度优秀创作者,互联网大厂P8技术专家,Spring Cloud Alibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者,资深架构师,技术负责人,极客时间训练营讲师,四维口袋KVP最具价值技术专家,技术领域专家团成员,2021电子工业出版社年度
大数据新视界 -- Hive 数据湖架构中的角色与应用(上)(25 / 30)
本文深入且全面地探讨 Hive 在数据湖架构中的关键角色与广泛应用,凭借丰富案例、详细代码、创新视角与深度剖析,为大数据从业者呈现其核心价值与技术精髓,是数据湖领域的必读佳作。
在Hadoop中如何实现数据的高效压缩与解压?
在Hadoop中,数据的高效压缩与解压是优化存储和提高I/O性能的重要手段。通过合理选择压缩算法和配置压缩参数,可以显著减少存储空间和加快数据处理速度。
Python学习从0到1 day26 第三阶段 Spark ① 数据输入
Apache Spark 是用于大规模数据处理的统一分析引擎简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海量数据RDD对象称之为分布式弹性数据集,是PySpark中数据计算的载体,它可以:① 提供数据存储② 提供数据计算的各类方法③ 数据计算
centos docker 安装 rabbitmq
如果您之前安装过Docker,可能需要先卸载旧版本。安装一些必要的工具,如yum-utils阿里云清华大学源。
WinArchiver 官方中文版 V4.9 下载
WinArchiver 官方中文版 V4.9 下载 WinArchiver官方中文版V4.9下载 WinArchiver 中文版是一款功能强大的电脑解压缩软件,专为 Windows 用户设计。它支持多种压缩文件格式,包括但不限于 z
SpringCloud-服务治理-Eureka
专治分布式系统(一)高可用性:服务治理框架保证服务的可用性(二)分布式调用:微服务节点通常散落在不同的网络环境中,大型互联网公司甚至会使用两地三机房或跨洲际机房做异地容灾。这要求服务治理框架具备在复杂网络环境下准备获知服务节点网络地址(IP,端口以及服务名称)的能力。作为服务消费者,就可以借助服务治