大数据 - overfit.cn

基于Spark中随机森林模型的天气预测系统

使用Apache Spark和随机森林算法来构建一个天气预测系统。该系统将利用历史天气数据，通过机器学习模型预测未来的天气情况，特别是针对是否下雨的二元分类问题。

overfit同步小助手 2024-06-16 23:03:44 0 收藏

RabbitMQ如何测试

结合上一篇的我们来学习下，如何使用RabbitMQ管理台来测试MQ；还是之前的例子，用图片简单介绍下逻辑。

overfit同步小助手 2024-06-16 21:03:50 0 收藏

RabbitMQ 之死信队列

但是发生了上面所说的三种情况中的一种，成为了死信，然后被转换到死信交换机中，这个死信交换机也是 direct 类型，它们之间的 routingKey 是 "lisi",然后就进入了死信队列，死信队列由 C2 消费。生产者正常情况下走的是普通的交换机，这个交换机的类型是 direct ，它和普通队列

overfit同步小助手 2024-06-16 20:03:50 0 收藏

RocketMQ与Kafka架构深度对比_kafka与rocketmq多方面剖析

外链图片转存中…(img-OsrRK31S-1712532856583)]

overfit同步小助手 2024-06-16 20:03:27 0 收藏

Hadoop单词统计实践：结果分析全流程详尽指南

Hadoop的单词统计（Word Count）是一个经典的MapReduce示例，用于计算输入文本文件中每个单词出现的次数。本指南旨在帮助读者在搭建完Hadoop集群后运行单词统计程序，并最终分析输出结果，全程详细解析，帮助读者深入理解大数据处理的核心流程。通过虚拟机实现Hadoop单词统计是一个很

overfit同步小助手 2024-06-16 19:03:48 0 收藏

大数据技术与应用（Spark），2024年最新含面试题+答案

链图片转存中…(img-d7I0zdtA-1713022181404)]

overfit同步小助手 2024-06-16 19:03:25 0 收藏

Spark参数配置不合理的情况

通常 executor 堆外内存在 executor.cores=1 的时候，1g 足够了，正常来说最大值不超过 2g；，默认的 buffer 会在 64k 到 64m 动态伸缩，没有特殊需要不需要设置，如果数据比较大，设置。算法作业绝大多数是 rdd 操作，合理设置并行度，事半功倍，后面会专门介绍

overfit同步小助手 2024-06-16 18:03:31 0 收藏

【大数据】2024年大数据新手学习路线图【更新中】

大数据学习路径图

overfit同步小助手 2024-06-16 17:03:34 0 收藏

Apache DolphinScheduler：深入了解大数据调度工具

都会遍历所有的 worker，使其 current\_weight+weight，同时累加所有 worker 的 weight，计为 total\_weight，然后挑选 current\_weight 最大的作为本次执行任务的 worker，与此同时，将这台 worker 的 current\_w

overfit同步小助手 2024-06-16 14:03:57 0 收藏

【黑马程序员】PySpark学习

功能：map算子是将RDD的数据一条条处理（处理的逻辑基于map算子中接收的处理函数），返回新的RDD。PySpark的数据计算，都是基于RDD对象来进行的，RDD对象内置丰富的：成员方法（算子）功能：针对KV型RDD，自动按照key分组，然后根据你提供的聚合逻辑，完成数据的聚合操作。功能：对rdd

overfit同步小助手 2024-06-16 14:03:37 0 收藏

Spring Cloud Netflix 之 Eureka

Eureka 是 Netflix 公司开发的一款开源的服务注册与发现组件。Spring Cloud 使用 Spring Boot 思想为 Eureka 增加了自动化配置，开发人员只需要引入相关依赖和注解，就能将 Spring Boot 构建的微服务轻松地与 Eureka 进行整合。

overfit同步小助手 2024-06-16 14:03:31 0 收藏

【Flink 从 Kafka 读取数据报错】

Caused by: java.lang.NoSuchMethodError: org.apache.kafka.clients.admin.DescribeTopicsResult.allTopicNames()Lorg/apache/kafka/common/KafkaFuture;

overfit同步小助手 2024-06-16 14:03:14 0 收藏

RabbitMQ基本使用及企业开发中注意事项

队列读取消息时使用轮询机制，每个队列都读取相同的消息数量，这样不好，我们要针对队列处理消息的能力，需要在配置文件设置属性fetch。服务一旦挂了消息就都没有了，还有就是内存如果满了，会触发阻塞式的强制持久化操作，这会导致这段时间处理消息的能力为0。连接重试，注意这里是阻塞式的，意味着连接失败会一直重

overfit同步小助手 2024-06-16 13:03:48 0 收藏

RabbitMQ笔记

requeue = false 表示不重新入队列。

overfit同步小助手 2024-06-16 12:03:44 0 收藏

Spark Standalone模式部署

准备至少2台虚拟机，装好linux系统，我装的是Ubuntu20.04。

overfit同步小助手 2024-06-16 12:03:37 0 收藏

微服务连接不上rabbitmq解决

2：virtual-host: my_vhost一定对应上。1.把端口port: 15672改成port：5672。

overfit同步小助手 2024-06-16 11:03:57 0 收藏

Docker部署常见应用之大数据实时计算引擎Flink

文章介绍了Docker部署大数据实时计算引擎Flink的部署。Apache Flink 是一个开源的分布式流批一体化的计算框架，它提供了一个流计算引擎，能够处理有界和无界的数据流。Flink 的核心优势在于其高吞吐量、低延迟的处理能力，以及强大的状态管理和容错机制。它支持事件驱动的应用和复杂的事件处

overfit同步小助手 2024-06-16 11:03:54 0 收藏

RabbitMQ3.13.x之四_RabbitMQ角色说明及创建用户与授权

RabbitMQ3.x之四_RabbitMQ角色说明及创建用户与授权

overfit同步小助手 2024-06-16 11:03:51 0 收藏

数据仓库面试题集锦（附答案和数仓知识体系(1)

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。1）数据仓库是用于支持决策、面向分析型数据处理；2）对多个异构的数据源有效集成，集成后按照主题进行重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改2、数据仓库和数据库的区别？从目标、用途、设计来说1）

overfit同步小助手 2024-06-16 10:03:19 0 收藏

kafka3.5.1（raft版本 sasl认证）集群docker部署

Kafka分布式消息队列集群，kafka的三个节点分别坐落在三台主机上。

overfit同步小助手 2024-06-16 09:03:49 0 收藏