大数据 - overfit.cn

【大数据】计算引擎：Spark核心概念

十分钟，一文讲明白复杂抽象的Spark核心概念。

overfit同步小助手 2024-06-08 10:03:25 0 收藏

在Spring Boot中使用Spark Streaming进行实时数据处理和流式计算

Spark Streaming是Apache Spark的一个组件，它允许我们以流式的方式处理实时数据。它提供了与Spark核心相似的编程模型，使得开发者可以使用相同的API来处理批处理和流式处理任务。Spark Streaming将实时数据流划分为小的批次，并将其作为RDD（弹性分布式数据集）进行

overfit同步小助手 2024-06-08 09:03:56 0 收藏

Kafka的分区副本机制

1.自定义分区器@Override@Override// cluster.partitionCountForTopic 表示获取指定topic的分区数量@Override2.在kafka生产者配置中，自定义使用自定义分区器的类名。

overfit同步小助手 2024-06-08 09:03:43 0 收藏

flink之定时器（Timer）

由于EventTime类型定时器是由Watermark,那么只要任务产生watermark就能正常触发恢复的定时任务，但是ProcessingTime类型的定时器是由系统注册的延时调度来触发，所以在重启的时候获取到队列中第一个元素来注册延时调度，保证其恢复之后的正常触发。flink为了保证定时触发操

overfit同步小助手 2024-06-08 08:03:49 0 收藏

【C++】模板进阶

模板的特化是指为具体类型或具体参数提供专门的实现。通常情况下，模板的特化是为了解决某些特殊类型或参数的处理需求，使得模板能更好地适应不同的情况。函数模板的特化步骤：必须要先有一个基础的函数模板关键字template后面接一对空的尖括号函数名后跟一对尖括号，尖括号中指定需要特化的类型函数形参表: 必须

overfit同步小助手 2024-06-08 08:03:46 0 收藏

dubbo + zookeeper + spring 分布式系统（二）

金三银四到了，送上一个小福利！提供方应用信息，用于计算依赖关系使用multicast广播注册中心暴露服务地址用dubbo协议在20880端口暴露服务和本地bean一样实现服务金三银四到了，送上一个小福利！[外链图片转存中…(img-L5WCBjXL-1714287101382)][外链图片转存中…(

overfit同步小助手 2024-06-08 06:03:46 0 收藏

TiDB TiCDC Kafka Topic分发规则详解

本文将详细讲解ticdc同步kafka消息topic分发规则

overfit同步小助手 2024-06-08 05:03:53 0 收藏

Flink 配置3：kubernetes(K8S) 部署 Flink 集群环境

基于 kubernetes(K8S) 部署 Flink 集群环境。

overfit同步小助手 2024-06-08 05:03:48 0 收藏

Hadoop分布式计算框架（MapReduce）——案例实践：气象大数据离线分析

数据格式由Year(年)、Month(月)、Day(日)、Hour(时)、Temperature(气温)、Dew(湿度)、Pressure(气压)、Wind dir.(风向)、Wind speed(风速)、Sky Cond.(天气状况)、Rain 1h(每小时降雨量)、Rain 6h(每6小时降雨量

overfit同步小助手 2024-06-08 04:03:44 0 收藏

vmware（大数据）虚拟机网络配置（学不会打死我）

vmware，Linux网络配置

overfit同步小助手 2024-06-08 03:03:55 0 收藏

智慧消防大数据管控平台建设方案

首先，我们要时刻关注国内外消防行业的最新动态和技术创新成果，这是为了确保我们的智慧消防大数据管控平台能够站在行业的前沿，提供最有效的支持和解决方案。当然，在选择传感器时，我们还得考虑它们的能耗和寿命，就像是给消防员配备合适的装备，选择适合的供电方式和维护方案，确保它们能够持续稳定地工作。首先，我们要

overfit同步小助手 2024-06-08 00:03:52 0 收藏

spark总结

spark是基于内存计算的通用大数据并行计算框架，是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈，适用于不同场合的分布式场景，如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。

overfit同步小助手 2024-06-07 23:03:43 0 收藏

Docker容器嵌入式开发：Ubuntu上配置Spark环境的基本步骤

在启动Spark Shell后，会创建一个Spark上下文（Spark Context，简称sc）和一个Spark会话（Spark Session，简称spark）。Spark上下文是与集群交互的主要入口点，而Spark会话则是与数据交互的入口点，可以用于创建DataFrame、执行SQL查询等。在

overfit同步小助手 2024-06-07 22:03:21 0 收藏

RabbitMQ是怎么做消息分发的？——Java全栈知识（14）

RabbitMQ 的消息分发分为五种模式：分别是简单模式、工作队列模式、发布订阅模式、路由模式、主题模式。

overfit同步小助手 2024-06-07 21:03:49 0 收藏

Spark分布式集群搭建

这里的Spark分布式集群是以我上一篇文章发的Hadoop分布式集群为基础搭建的，都是在UbuntuKylin系统中搭建的。过几天发Centos上的分布式集群搭建。

overfit同步小助手 2024-06-07 20:03:48 0 收藏

消息队列—如何保证 RabbitMQ 消息的顺序性？

比如数据库对一条数据依次进行了插入->更新->删除操作，这个顺序必须是这样，如果在同步过程中，消息的顺序变成了删除->插入->更新，那么原本应该被删除的数据，就没有被删除，造成数据的不一致问题。①一个queue，有多个consumer去消费，这样就会造成顺序的错误，consumer从MQ里面读取

overfit同步小助手 2024-06-07 20:03:35 0 收藏

kettle从入门到精通第五十三课 ETL之kettle MQTT/RabbitMQ producer 实战

MQTT 是基于发布/订阅模式（Publish/Subscribe）的协议，其中设备可以发布消息到一个主题（Topic），其他设备可以订阅这个主题以接收相关消息。MQTT (Message Queuing Telemetry Transport) 是一种轻量级的消息传输协议，设计用于连接低带宽、高延

overfit同步小助手 2024-06-07 19:03:50 0 收藏

Spring Cloud 集成 RabbitMQ

在当今的微服务架构盛行的时代，消息队列作为一种重要的通信机制，在分布式系统中扮演着不可或缺的角色。RabbitMQ，作为一款开源的消息代理和队列服务器，以其高可用性、易扩展性、灵活的路由机制以及多协议支持等特点，深受开发者们的青睐。而Spring Cloud，作为Spring生态中针对微服务架构的一

overfit同步小助手 2024-06-07 19:03:33 0 收藏

StarRocks实战——多点大数据数仓构建

overfit同步小助手 2024-06-07 18:03:50 0 收藏

Kafka之Consumer原理

本文主要讲了消费者消费消息的流程，使用offset保证消息消费的正确性，以及offset的存储，offset如果找不到的话的策略配置，还有offset的更新。随后又介绍了消费者组中的消费者和主题中的分区之间的消费策略，最后当消费者数量发生变化，或者分区增加的情况下，kafka采用分区再平衡机制进行维

overfit同步小助手 2024-06-07 18:03:45 0 收藏