大数据 - overfit.cn

kafka生产者

生产者调用方法。ProducerRecord 是 Kafka 中的一个核心类，它代表了一组 Kafka 需要发送的 key/value 键值对，它由记录要发送到的主题名称（Topic Name），可选的分区号（Partition Number）以及可选的键值对构成。然后经过拦截器 -》序列化器(k

overfit同步小助手 2024-07-25 06:03:29 0 收藏

hive数据仓库项目练习

overfit同步小助手 2024-07-25 04:03:53 0 收藏

Kafka 简单介绍

Kafka 是一个分布式的基于发布/订阅模式的消息队列（MQ，Message Queue），主要应用于大数据实时处理领域。

overfit同步小助手 2024-07-25 04:03:19 0 收藏

flink初学者踩坑系列：flink1.17集群模式在jdk17启动不了

经过文心一言的指点（虽然是文心一言指出解决方法，但我问了好多遍、换着问法才终于问出来了。在 Java 9 及更高版本中，模块系统引入了新的模块化概念，这意味着某些包和类不再默认可见。在Linux系统jdk17环境下启动flink1.17，输入start-cluster.sh，输入jps，flink相

overfit同步小助手 2024-07-25 03:03:39 0 收藏

Hive数据仓库建模理论

粒度定义意味着对各事实表行实际代表的内容给出明确的说明。粒度传递了同事实表度量值相联系的细节所达到的程度方面的信息。它给出了后面这个问题的答案:“如何描述事实表的单个行?粒度定义是不容轻视的至关重要的步骤。在定义粒度时应优先考虑为业务处理获取最有原子性的信息而开发维度模型。原子型数据是所收集的最详细

overfit同步小助手 2024-07-25 02:03:45 0 收藏

智能微服务调度：Eureka中的区域感知性配置指南

Eureka，作为Netflix开源的服务发现框架，提供了区域感知性配置，允许服务消费者优先访问同一区域的服务实例。本文将深入探讨如何在Eureka中配置服务的可用性区域感知性，通过实际代码示例，指导您优化微服务架构的地理冗余和负载均衡策略。本文详细介绍了在Eureka中配置服务的可用性区域感知性的

overfit同步小助手 2024-07-25 02:03:40 0 收藏

Spark源码阅读02-Spark核心原理之作业执行原理

学习技术一定要制定一个明确的学习路线，这样才能高效的学习，不必要做无效功，既浪费时间又得不到什么效率，大家不妨按照我这份路线来学习。大家不妨直接在牛客和力扣上多刷题，同时，我也拿了一些面试题跟大家分享，也是从一些大佬那里获得的，大家不妨多刷刷题，为金九银十冲一波！} else 0Ltry {//首先

overfit同步小助手 2024-07-25 01:03:48 0 收藏

RabbitMQ中如何解决消息堆积问题

对于无法立即处理或处理失败的消息，可以配置死信交换器和队列，当消息达到一定重试次数或者超过一定期限未被成功ACK时，消息将被转发到死信队列中，后续可以单独处理这部分消息，避免阻塞正常的消息流。当然，更重要的是理解业务需求和消息处理的规律，制定合理的架构和策略。：对于不在活跃节点上的消息，可以启用惰

overfit同步小助手 2024-07-25 01:03:40 0 收藏

RabbitMq

消息传递模式：RabbitMQ支持多种消息传递模式，包括发布/订阅、点对点和工作队列等，使其更灵活适用于各种消息通信场景。消息路由和交换机：RabbitMQ引入交换机的概念，用于将消息路由到一个或多个队列。允许根据消息的内容、标签或路由键进行灵活的消息路由，从而实现更复杂的消息传递逻辑。消息确认机制

overfit同步小助手 2024-07-25 01:03:10 0 收藏

数仓工具—Hive语法之数组函数用法和示例

之后，您可以使用数组操作函数来操作数组类型。数组函数将自然语言文本的字符串分割成单词和句子，每个句子在适当的句子边界处断开，并作为单词数组返回。函数根据数组元素的自然排序对输入数组进行升序排序并返回。例如，考虑以下示例对数组字符串进行排序并返回排序后的数组。例如，以下示例仅从键值对 map 类型中返

overfit同步小助手 2024-07-25 00:03:50 0 收藏

Kafka-exporter监控消费速度与生产速度差异规则

PromQL实现检测Kafka消费者组的消费进度，确保它们没有落后太多，并且在积极地消费消息。

overfit同步小助手 2024-07-24 23:03:19 0 收藏

Spring Boot与Netflix Eureka的集成

Eureka Server用作服务注册中心，而Eureka Client则是一个注册到Eureka Server上的服务。通过本文，我们了解了如何在Spring Boot中集成Netflix Eureka，从创建Eureka Server和Eureka Client开始，到使用Feign Clien

overfit同步小助手 2024-07-24 22:03:49 0 收藏

获取kafka中topic偏移量和消费偏移量

2、这部分测试代码和真正的消费端不在一个程序内，连接kafka时随便配置了一个groupId，然后kafkaConsumer.committed(topicAndPartition)一直为null。后来groupId改成和消费者一致时能成功查到。

overfit同步小助手 2024-07-24 22:03:36 0 收藏

一文看懂：数据湖、数据仓库、数据中台，浅显直白！

数据湖是一种用于存储大量原始数据的存储系统，它可以容纳各种类型的数据，包括结构化数据、半结构化数据和非结构化数据。数据湖的设计目的是为了能够存储大规模的数据，并且能够支持多种数据处理和分析工具的访问和使用。数据湖通常不会对数据进行预先的清洗、转换和整合，而是以原始的形式存储数据。这使得数据湖能够更好

overfit同步小助手 2024-07-24 22:03:19 0 收藏

Spark SQL 的总体工作流程

Spark SQL 结合了 SQL 的易用性和 Spark 的分布式计算能力，通过优化查询计划和内存管理，为大规模数据处理提供了一个强大、灵活且高效的解决方案。

overfit同步小助手 2024-07-24 21:03:46 0 收藏

【大数据技术概述】Hadoop、Spark等大数据技术介绍

大数据指的是无法用传统数据库工具进行采集、管理和处理的海量数据集。大数据技术通过分布式存储和计算，能够高效地处理和分析这些数据，提取有价值的信息。常见的大数据技术包括Hadoop、Spark、Flink、Hive等。Hadoop是一个开源的分布式计算框架，由Apache基金会维护。Hadoop的核心

overfit同步小助手 2024-07-24 20:03:51 0 收藏

Rabbitmq消息顺序的问题以及解决方案

场景1：一个queue，多个consumer一个queue，有多个consumer去消费，这样就会造成顺序的错误，consumer从MQ里面读取数据是有序的，但是每个consumer的执行时间是不固定的，无法保证先读到消息的consumer一定先完成操作，这样就会出现消息并没有按照顺序执行，造成数据

overfit同步小助手 2024-07-24 20:03:46 0 收藏

Zookeeper与kafka

Kafka 是一个分布式的基于发布/订阅模式的消息队列（MQ，Message Queue），主要应用于大数据实时处理领域。

overfit同步小助手 2024-07-24 20:03:41 0 收藏

【AI大数据计算原理与代码实例讲解】ElasticSearch

【AI大数据计算原理与代码实例讲解】ElasticSearch作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming / TextGenWebUILLM

overfit同步小助手 2024-07-24 20:03:37 0 收藏

Flink CDC 同步表至Paimon 写数据流程，write算子和commit算子。

流程图一般基本flink cdc 任务同步数据至paimon表时包含3个算子，source、write、global commit。source端一般是flink connector实现的连接源端进行获取数据的过程，本文探究的是source算子获取的到数据如何传递给writer算子？writer算子

overfit同步小助手 2024-07-24 17:03:45 0 收藏