大数据 - overfit.cn

三十分钟学会RabbitMQ

30分钟学会rabbitmq

overfit同步小助手 2024-07-20 02:03:47 0 收藏

运行Flink作业报错：Job execution failed.

一个将本地文本文件写入到MySQL的Flink作业。

overfit同步小助手 2024-07-20 02:03:12 0 收藏

大数据hive表和iceberg表格式

iceberg表，是一种面向大型分析数据集的开放表格式，旨在提供可扩展、高效、安全的数据存储和查询解决方案。它支持多种存储后端上的数据操作，并提供 ACID 事务、多版本控制和模式演化等特性，使数据管理和查询更加灵活便捷。Iceberg 可以屏蔽底层数据存储格式上的差异，向上提供统一的操作 API，

overfit同步小助手 2024-07-20 00:03:48 0 收藏

Hadoop数据压缩与数据存储优化

1. 背景介绍1.1 问题的由来在大数据时代，数据量的爆炸性增长对数据存储和处理提出了巨大的挑战。Hadoop作为一个开源的分布式计算框架，能够有效地处理大规模数据，但是随着数据量的增长，存储和处理数据的成本也在不断增加。为了降低这些成本，数据压缩和数据存储优化成为了必要的手段。

overfit同步小助手 2024-07-19 23:03:58 0 收藏

Hive基础知识（六）：Hive 配置运行日志信息、打印当前库和表头、参数配置方式

另外，Hive 也会读入 Hadoop 的配置，因为。

overfit同步小助手 2024-07-19 23:03:54 0 收藏

Java如何实现kafka所有指标监控

Java如何实现kafka所有指标监控的方法教程。

overfit同步小助手 2024-07-19 23:03:36 0 收藏

基于Spark天气数据分析系统的设计与实现

在大数据时代，天气数据作为一种重要的公共资源，不仅影响人们的日常生活，还对农业、交通、能源等多个领域产生深远影响。通过对天气数据的全面处理和展示，可以帮助人们更好地理解和预测天气变化，从而做出更加科学的决策。我们设计并实现了一个基于Spark的天气数据分析系统，该系统通过数据采集、清洗、分析和可视化

overfit同步小助手 2024-07-19 23:03:31 0 收藏

时间轮算法理解、Kafka实现

时间轮、环形队列、Kafka实现

overfit同步小助手 2024-07-19 22:03:55 0 收藏

百日筑基第二十天-一头扎进消息队列3-RabbitMQ

RabbitMQ 主要有 Producer、Broker、Consumer、Exchange、Queue、Route、Bind、 Connection、Channel、ACK 等概念。总结 RabbitMQ，可以从以下七个方面入手：思考题请你按照基础篇的课程思路，完整描述一下 RabbitMQ 从

overfit同步小助手 2024-07-19 22:03:49 0 收藏

【Spark On Hive】—— 基于电商数据分析的项目实战

overfit同步小助手 2024-07-19 22:03:30 0 收藏

介绍kafka核心原理及底层刷盘机制，集群分片机制，消息丢失和重复消费有对应的线上解决方案

对于底层刷盘机制，Kafka采用了异步的方式进行数据持久化，即生产者在发送消息后不等待磁盘写入完成的确认，而是继续发送下一批消息。消息丢失：Kafka通过设置消息的持久性、副本因子和数据刷盘策略来提供高可靠性的消息存储。此外，可以使用消费者的消费组（Consumer Group）来实现负载均衡和故障

overfit同步小助手 2024-07-19 19:03:49 0 收藏

Spark RDD实现分组求TopN

这会得到一个新的RDD，其中的元素是二元组，其中第一个元素是姓名，第二个元素是一个迭代器，包含与该姓名关联的所有成绩的二元组。该Scala代码使用了Apache Spark的RDD（弹性分布式数据集）API来处理一个文本文件，该文件包含按逗号分隔的姓名和成绩数据。因为每一行为一条数据，所以先构成（姓

overfit同步小助手 2024-07-19 19:03:25 0 收藏

图解kafka-多线程消费挑战详解

在多线程消费模式中，确实可以通过增加消费者实例和线程来提升消费能力和并行度。

overfit同步小助手 2024-07-19 18:03:33 0 收藏

任务4.8.4 利用Spark SQL实现分组排行榜

本实战任务展示了如何使用Spark SQL对数据进行分组和TopN计算，这是大数据领域中常见的数据处理需求。通过Spark SQL的窗口函数，可以方便地实现复杂的数据分析任务。

overfit同步小助手 2024-07-19 18:03:30 0 收藏

Spark原理与代码实例讲解

1. 背景介绍1.1 问题的由来在大数据时代，数据量的爆炸性增长导致传统的数据处理方式无法满足需求。为了解决这个问题，Apache Spark应运而生。它是一个开源的大数据处理框架，能够提供批处理、交互式查询、流处理、机器学习和图计算等全套的数据分析工具。1

overfit同步小助手 2024-07-19 17:03:48 0 收藏

Spring Boot中@KafkaListener使用${}动态指定topic

在Spring Kafka中，我们可以使用${}来引用Spring的属性配置。这样我们就可以在不同的环境中重新配置topic名称，而不需要修改代码。

overfit同步小助手 2024-07-19 13:03:47 0 收藏

【软件工具】在Java语言中如何使用 Kafka 消费者（KafkaConsumer）来消费消息及如何用idea实现

在 IntelliJ IDEA 中实现 Java 语言的 Kafka 消费者（KafkaConsumer）非常简单，下面我将详细介绍如何配置和实现一个基本的 Kafka 消费者应用程序。通过以上步骤，你可以在 IntelliJ IDEA 中快速创建和运行 Kafka 消费者应用程序，并进行必要的配置

overfit同步小助手 2024-07-19 13:03:30 0 收藏

rabbitmq五种消息模型

交换机负责接收消息并根据消息的路由键将消息路由到一个或多个队列。消息持久化是RabbitMQ中的另一个重要特性，它确保消息、队列和交换机在服务器重启后依然存在。- 适用于复杂的消息路由场景，如根据不同的话题或事件类型路由消息。- 消息发送到交换机，交换机将消息发送到所有绑定的队列。- 生产者将消息发

overfit同步小助手 2024-07-19 12:03:20 0 收藏

Hadoop的单节点集群设置(独立模式)_hadoop部署独立模式

将hadoop软件包上传到/opt/software目录下，然后解压到/opt/apps/目录下。–4. lib/libexec: hadoop的资源库存储目录。–6. include: hadoop的工具脚本存储目录。–1. bin: hadoop的二进制执

overfit同步小助手 2024-07-19 11:04:01 0 收藏

Spark 的Shuffle原理及调优

在MapReduce框架，Shuffle是连接Map和Reduce之间的桥梁，Map阶段通过shuffle读取数据并输出到对应的Reduce，而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中，往往伴随着大量的磁盘和网络I/O。所以，Hadoop中的shuffle性能的高

overfit同步小助手 2024-07-19 11:03:54 0 收藏