大数据 - overfit.cn

【Java Kubernates】Java调用kubernates提交Yaml到SparkOperator

最终我选择了fabric8io，因为我们需要使用k8s的自定义资源sparkApplication，对于自定义资源，kubernetes-client/java需要创建各个k8s对象的pojo，比较麻烦。这里提一下，我在重新使用spark operator的时候，发现原来官方的google的spar

overfit同步小助手 2024-03-03 20:03:20 0 收藏

Kafka基础知识

Kafka 是一个分布式流处理平台，用于收集、处理、存储和集成大规模数据。它具有高吞吐量、容错性和可伸缩性等特点，被广泛应用于数据集成、流处理、日志聚合等场景。Kafka 的核心概念包括以下内容：事件：事件是由软件或应用程序识别或记录的任何类型的操作、事件或更改。例如，支付、网站点击或温度读数等。主

overfit同步小助手 2024-03-03 18:03:54 0 收藏

【Kafka系列 06】Kafka Producer源码解析

调用 KafkaProducer.send() 发送消息，在经过拦截器处理，key/value 序列化处理后，实际是将消息保存到消息累加器 RecordAccumulator 中，实际上就是保存到一个 Map 中 (ConcurrentMap)，这条消息会被记录到同一个记录批次 (相同主题相同分区

overfit同步小助手 2024-03-03 18:03:44 0 收藏

【EAI 019】Eureka: Human-Level Reward Design via Coding LLM

EUREKA 利用最先进的 LLM 对奖励代码进行进化优化。由此产生的奖励可用于通过强化学习获得复杂的技能。在没有任何特定任务提示或预定义奖励模板的情况下，EUREKA 生成的奖励函数优于人类设计的专家奖励。

overfit同步小助手 2024-03-03 18:03:40 0 收藏

Spring-Kafka 3.0 消费者消费失败处理方案

我们作为Kafka在使用Kafka是，必然考虑消息消费失败的重试次数，重试后仍然失败如何处理，要么阻塞，要么丢弃，或者保存Kafka3.0 版本默认失败重试次数为10次，准确讲应该是1次正常调用+9次重试，这个在这个类可以看到 org.springframework.kafka.listener.S

overfit同步小助手 2024-03-03 18:03:30 0 收藏

数学与大数据：数学在大数据处理中的应用

1.背景介绍大数据处理是当今信息技术领域的一个热门话题。随着数据的快速增长和存储容量的不断扩大，大数据处理技术已经成为了解决现实问题的关键。在这个过程中，数学在大数据处理中发挥着越来越重要的作用。本文将从以下几个方面进行探讨：背景介绍核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具

overfit同步小助手 2024-03-03 17:03:47 0 收藏

Flink与ApacheHive对比

1.背景介绍1. 背景介绍Apache Flink 和 Apache Hive 都是流行的大数据处理框架，它们在大数据处理领域发挥着重要作用。Apache Flink 是一个流处理框架，专注于实时数据处理，而 Apache Hive 是一个数据仓库工具，用于批处理数据。在本文中，我们将对比这两个框架

overfit同步小助手 2024-03-03 16:03:39 0 收藏

hadoop介绍集群安装及相关问题集锦（超详细）

用java语言实现，开源允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理。

overfit同步小助手 2024-03-03 16:03:31 0 收藏

Hive中的行转列和列转行

在使用Hive的数据开发工作中，为了处理复杂的业务需求，经常要用到行转列或列转行的操作。为了节省以后处理这类工作的时间，提高工作效率，现将Hive行列互转的操作方法总结如下。列转行，顾名思义，将原本某列中一行的数据拆分为多行，该操作会使得数据行数增多。我们采用的方法是使用LATERAL VIEW语法

overfit同步小助手 2024-03-03 16:03:22 0 收藏

Flink State 状态管理

状态在Flink中叫做State，用来保存中间计算结果或者缓存数据。状态数据的存储和访问在Task内部，如何高效地保存状态数据和使用状态数据。状态数据的备份和恢复作业失败是无法避免的，那么就要考虑如何高效地将状态数据保存下来，避免状态备份降低集群的吞吐量，并且在Failover时恢复作业到失败前的状

overfit同步小助手 2024-03-03 16:03:15 0 收藏

RabbitMQ-消息队列：三台虚拟机搭建RabbitMQ集群

单台 RabbitMQ 服务器可以满足每秒 1000 条消息的吞吐量，那么如果应用需要 RabbitMQ 服务满足每秒 10 万条消息的吞吐量呢？购买昂贵的服务器来增强单机 RabbitMQ 务的性能显得捉襟见肘，搭建一个 RabbitMQ 集群才是解决实际问题的关键

overfit同步小助手 2024-03-03 15:03:42 0 收藏

【zookeeper】在Windows上启动zookeeper

在当今分布式系统中，ZooKeeper扮演着至关重要的角色，作为协调服务的核心组件。其高可用性和一致性保证了分布式环境中各种服务的可靠性和稳定性。在Windows平台上启动ZooKeeper可能会有些许不同，但遵循正确的步骤可以确保系统的顺利运行。通过本文提供的步骤，你应该能够在Windows上成功

overfit同步小助手 2024-03-03 15:03:11 0 收藏

面试题篇-13-Kafka相关面试题

消息队列Message Queue，简称MQ。是一种应用间的通信方式，主要由三个部分组成。生产者：Producer消息的产生者与调用端主要负责消息所承载的业务信息的实例化是一个队列的发起方代理：Broker主要的处理单元负责消息的存储、投递、及各种队列附加功能的实现是消息队列最核心的组成部分消费者：

overfit同步小助手 2024-03-03 14:03:55 0 收藏

电商API接口|大数据关键技术之数据采集发展趋势

现代的数据采集系统已经逐步向着网络化的方向发展。未来，数据的多模多态是数据存在的原始形式，对伴随技术发展、场景化发展和时长要求，需要将更多多模多态数据汇聚分析从而产生更大的社会价值和意义显得格外重要。但随着大数据和物联网等技术的提出，各行各业对数据采集的发展提出了更高的要求，同时其正逐步的向智能化、

overfit同步小助手 2024-03-03 14:03:37 0 收藏

kafka实现延迟队列

首先说一下延迟队列这个东西，实际上实现他的方法有很多，kafka实现并不是一个最好的选择，例如redis的zset可以实现，rocketmq天然的可以实现，rabbitmq也可以实现。如果切换前几种方案成本高的情况下，那么就使用kafka实现，实际上kafka实现延迟队列也是借用了rocketmq的

overfit同步小助手 2024-03-03 13:03:49 0 收藏

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

最佳实践概述应用场景客户在IDC或者公有云环境自建Hadoop集群，数据集中保存在HDFS文件系统，同时借助Hive进行常见的ETL任务。客户在决策上云之后，会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。技术架构本实践方案基于如下图所示的技术架构和主要流程编写操作步骤。方案优

overfit同步小助手 2024-03-03 11:03:57 0 收藏

如何将不同类别信息发送到kafka的不同通道中

在Kafka中，不同的通道被称为"主题（Topic）"，可以将消息发送到不同的主题中。通过这样的方式，可以使用Java代码将不同的信息发送到不同的Kafka主题（通道）中。这种区分不同通道的方式有助于实现消息的分类和处理。创建生产者对象：首先，需要创建一个Kafka生产者对象，用于向Kafka集群发

overfit同步小助手 2024-03-03 11:03:49 0 收藏

大数据毕设分享大数据全国疫情数据分析与3D可视化 - python 大数据

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩大数据全国疫情数据分析与3D可视化🥇学长

overfit同步小助手 2024-03-03 11:03:36 0 收藏

2-1.Hadoop大数据集群搭建之---本地模式

hadoop本地运行模式

overfit同步小助手 2024-03-03 10:03:49 0 收藏

大数据与人工智能的交融：向量数据库在具体应用案例中的探索

向量是数学中表示方向和大小的量，在计算机科学中常用于表示数据的特征。向量数据库通过高效的索引和检索算法，能够快速找到与给定向量相似的其他向量。这使得它在处理大规模高维数据时具有显著优势，如图像、文本和语音等数据的相似度匹配和检索任务。向量数据可以表示文本、图像、音频等多种模态的信息。向量数据库通过高

overfit同步小助手 2024-03-03 10:03:46 0 收藏