大数据 - overfit.cn

Spark累加器、广播变量、案例需求

很自然地想到组合rdd的算子join，但是join只能组合相同的key，如果一个商品只有点击没有下单，那么使用join是不会出现在最终结果的，同理leftOuterJoin和rightOuterJoin也是类似的，不能实现相应的功能。1）已经从原始日志文件中读出了商品的点击数量rdd、下单数量rdd

overfit同步小助手 2024-08-05 09:03:58 0 收藏

Kafka~消息系列问题解决：消费顺序问题解决、消息丢失问题优化（不能保证100%）

假如这两条消息的消费顺序不一样造成的最终结果就会截然不同。我们知道 Kafka 中 Partition(分区)是真正保存消息的地方，我们发送的消息都被放在了这里。而我们的 Partition(分区) 又存在于 Topic(主题) 这个概念中，并且我们可以给特定 Topic 指定多个 Partitio

overfit同步小助手 2024-08-05 09:03:25 0 收藏

Spark 机器学习（一）

近年来，收集、存储和分析的数据量急剧增加，特别是与网络和移动设备上的活动以及通过传感器网络收集的物理世界的数据相关。尽管大规模数据存储、处理、分析和建模以前主要是谷歌、雅虎、Facebook、Twitter 和 Salesforce 等最大机构的领域，但越来越多的组织面临着如何处理大量数据的挑战。面

overfit同步小助手 2024-08-05 08:03:36 0 收藏

Flink-StarRocks详解:第五部分查询数据湖(第55天)

本文为Flink-StarRocks详解后续章节：主要详解StarRocks查询数据湖由于篇幅过长，后续接着下面进行详解：数仓场景：即席查询大案例

overfit同步小助手 2024-08-05 08:03:14 0 收藏

Python实战，Hadoop开发环境，如何分析处理大数据

Python与Hadoop的结合为大数据处理与分析提供了强大的工具。Python的灵活性和丰富的库使得数据处理和分析变得更加高效和便捷，而Hadoop的分布式计算能力则使得处理大规模数据集成为可能。未来，随着大数据技术的不断发展，Python和Hadoop将在更多领域得到应用。同时，我们也需要关注新

overfit同步小助手 2024-08-05 07:03:32 0 收藏

kafka学习笔记

Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多生产者、多订阅者，基于zookeeper协调的分布式日志系统(也可以当做MQ系统)，常见可以用于webynginx日志、访问日志，消息服务等等，Linkedin于 2010年贡献给了Apache基会并成为顶级开源项目。主

overfit同步小助手 2024-08-05 06:03:59 0 收藏

RabbitMQ实践——超时消息的处理方法

如果队列指定TTL，消息也设置了TTL，取最接近当前时间的TTL。即用最短的那一个。

overfit同步小助手 2024-08-05 06:03:39 0 收藏

Hadoop的分布式云笔记系统-计算机毕业设计源码15725

摘要随着信息技术的飞速发展，人们对于数据的存储、管理和共享需求日益增长。传统的集中式存储系统在处理大规模数据时面临着性能瓶颈和扩展性问题。而 Hadoop 作为一种分布式计算框架，为解决这些问题提供了有效的解决方案。本研究旨在设计并实现一种基于 Hadoop 的分布式云笔记系统。该系统将充分利用

overfit同步小助手 2024-08-05 06:03:30 0 收藏

RabbitMQ是什么？

RabbitMQ是一个开源的消息代理软件（Message Broker），它实现了高级消息队列协议（AMQP，Advanced Message Queuing Protocol），并支持多种消息传递协议。它最初由英国的Rabbit Technologies开发，后来被VMware收购，并在2010年

overfit同步小助手 2024-08-05 06:03:22 0 收藏

大数据开发之Hadoop

Hadoop的发展，Hadoop的三个功能组件：一、HDFS 分布式文件系统，二、MapReduce 分布式计算，三、Yarn 分布式资源调度。提交MapReduce程序至YARN运行

overfit同步小助手 2024-08-05 05:03:38 0 收藏

Kafka

Kafka 是一个强大的分布式消息系统，具备高吞吐量、低延迟、高可靠性和扩展性。了解 Kafka 的底层架构和工作原理，有助于在实际应用中优化性能、实现数据流处理和解决复杂的消息传递需求。希望这篇博客能够帮助你更深入地理解 Kafka 的核心概念和实现细节。如果你有任何问题或想法，欢迎在评论区讨论！

overfit同步小助手 2024-08-05 04:03:36 0 收藏

Flink CDC操作数据库获取变更数据

使用FlinkCDC Connector整合SpringBoot实现对OceanBase,SQLServer数据库变更数据的获取

overfit同步小助手 2024-08-05 04:03:23 0 收藏

RabbitMQ WEB管理端介绍

RabbitMQ web客户端详细说明介绍，最详细

overfit同步小助手 2024-08-05 02:03:50 0 收藏

RabbitMQ 弱口令

RabbitMQ是一款开源的消息队列系统，支持多种协议，例如AMQP、MQTT等。在默认情况下，RabbitMQ的管理界面是开启的，可以通过Web浏览器访问，默认的访问地址为http://localhost::15672,使用用户名和密码进行登录。RabbitMQ弱口令指的是在未修改默认配置的情况下

overfit同步小助手 2024-08-05 02:03:43 0 收藏

RabbitMQ实现延迟队列

死信交换机、延迟队列插件① 声明死信交换机并编写监听方法② 声明延迟队列和对应的交换机，在声明队列时配置ttl属性③ 发送消息时，设置超时时间（实际上延迟队列的ttl和消息的超时时间至少有一个设置了就行）① 声明一个交换机，设置 delayed属性为true② 发送消息时，添加 x-delay头，值

overfit同步小助手 2024-08-05 02:03:27 0 收藏

CentOS 7安装Zookeeper

overfit同步小助手 2024-08-05 00:03:51 0 收藏

Spark Stage原理与代码实例讲解

Spark采用DAG（有向无环图）结构来表示计算任务，DAG中的每个节点代表一个操作，边表示数据依赖。Spark Stage划分算法根据DAG结构，将DAG分解为最小的并行可执行单元，即Stage。每个Stage对应一个独立的内存空间，用于存储中间结果和执行计算任务。通过深入研究Spark Stag

overfit同步小助手 2024-08-04 23:03:36 0 收藏

大数据与AI：赋能智能时代的技术融合与创新

在当今数字化时代，人工智能（AI）与大数据的结合正以前所未有的速度推进技术革新和社会进步。本文将深入探讨AI工具的现状、对开发者的影响、未来发展趋势，以及相关的伦理问题和社会责任。

overfit同步小助手 2024-08-04 22:04:11 0 收藏

RabbitMQ常见问题解决方案

其中的autoDelete为true表示的意思是，如果这个声明的队列在与最后一个消费者断开连接后，自动删除这个队列，durable属性设置为true表明的意思是，即使这个交换机没有队列，也不会删除交换机，达到了交换机持久化的目的。如果消费者采用多线程的方式也可能会导致消息乱序的问题，那么可以将消息I

overfit同步小助手 2024-08-04 22:03:52 0 收藏

kafka_3.7.0(sasl+acl)+管理工具redpanda

四、安装redpanda。二、安装docker。

overfit同步小助手 2024-08-04 20:03:23 0 收藏