大数据 - overfit.cn

Golang使用消息队列（RabbitMQ）

最近在使用Golang做了一个网盘项目（类似百度网盘），这个网盘项目有一个功能描述如下：用户会删除一个文件到垃圾回收站，回收站的文件有一个时间期限，比如24h，24h后数据库中记录和oss中文件会被删除，在之前的版本中，可以使用定时任务来检查数据库记录中删除时间来判断是否删除，但是这不是最佳的，因此

overfit同步小助手 2023-09-21 21:03:26 0 收藏

Elasticsearch踩坑日记

ubuntu环境下使用apt-get install elasticsearch安装es,一路掉坑，做个简单记录，避免再次踩坑。systemctl start elasticsearch 方式启动，通过 journalctl -xe 和查看 elasticsearch日志进行排错。当前的elast

overfit同步小助手 2023-09-21 20:04:39 0 收藏

RabbitMQ清除积压消息/管理界面出现 Unacked 消息

rabbitmq的生产者端循环产生了多条消息给消费者，而消费者无法及时将消息处理掉，在消费端积压了多条消息（消费失败的时候，消息队列会一直重复的发送消息，导致程序死循环）需要清理项目因为错误而产生的积压消息队列。表明该队列支持优先级，先定义最大优先级值(定义最大值一般不要太大)，在发布消息的时候指定

overfit同步小助手 2023-09-21 20:04:28 0 收藏

Hadoop MapReduce 是如何工作的?

Hadoop MapReduce（以下简称MR）是一个分布式计算框架，基于Google开发，用于并行处理海量数据集。其提供简单、高效的数据处理能力，并可运行于多种平台上，广泛应用于数据分析领域。因此，掌握MR的原理及其工作方式对于利用它进行海量数据的分布式计算，以及优化数据处理性能都非常重要。本文从

overfit同步小助手 2023-09-21 20:03:39 0 收藏

Kafka在linux中的安装

本篇讲解以下kafka集群的搭建，这里搭建了两种Kafka集群，一种是使用ZK的传统集群，一种是不需要ZK的实验版集群，后期Kafka将会废弃ZK，但是现阶段还是推荐使用带有ZK的，因为不需要ZK的还处于实验性质Kafka的共识机制KRaft，仍然处于预览机制。未来KRaft将作为Apache Ka

overfit同步小助手 2023-09-21 19:04:39 0 收藏

linux部署kafka3.5.1(单机)

kafka3.x版本需要jdk11以上版本，因为jdk11、jdk17都是LTS长期维护版本，而且jdk17支持springboot3.x,所以我选择了openjdk17。

overfit同步小助手 2023-09-21 17:03:58 0 收藏

kafka—offset偏移量

1.offset基本概念2.offset的提交3.消费者优化

overfit同步小助手 2023-09-21 14:03:24 0 收藏

华为云云耀云服务器L实例评测｜伪分布式环境下部署hadoop2.10.1

云耀云服务器L实例是新一代的轻量应用云服务器，专门为中小企业和开发者打造，提供开箱即用的便利性。云耀云服务器L实例提供丰富且经过严格挑选的应用镜像，可以一键部署应用，极大地简化了客户在云端构建电商网站、Web应用、小程序、学习环境以及各类开发测试等任务的过程。Hadoop是一个开源的分布式计算框

overfit同步小助手 2023-09-21 13:04:02 0 收藏

Flink之Sink

Flink 的 DataStream API 专门提供了向外部写入数据的方法：addSink。与 addSource 类似，addSink 方法对应着一个“Sink”算子，主要就是用来实现与外部系统连接、并将数据提交写入的；Flink 程序中所有对外的输出操作，一般都是利用 Sink 算子完成的。

overfit同步小助手 2023-09-21 11:04:01 0 收藏

RabbitMQ之工作队列 ( Work Queues )

工作队列（又称任务队列）的主要思想是避免立即执行资源密集型任务，而不得不等待它完成。相反我们安排任务在之后执行。我们把任务封装为消息并将其发送到队列。在后台运行的工作进程将弹出任务并最终执行作业。当有多个工作线程时，这些工作线程将一起处理这些任务。

overfit同步小助手 2023-09-21 11:03:50 0 收藏

大模型赛道如何实现华丽的弯道超车【赠书活动｜第十期《分布式统一大数据虚拟文件系统 Alluxio原理、技术与实践》】

在人工智能（AI）和机器学习（ML）领域，数据驱动的决策和模型训练已成为现代应用和研究的核心。伴随大模型技术迅猛发展，模型训练所需数据的规模不断扩大，数据的处理、存储和传输都面临着巨大的挑战，传统的存储和处理方式已经无法满足实时性和性能需求。同时，不同计算框架之间的数据孤岛问题也制约了数据的有效利用

overfit同步小助手 2023-09-21 11:03:38 0 收藏

Spring Boot如何实现微服务架构中的API网关？

在传统的单体应用中，我们可以很方便地使用单一的入口来处理所有的API请求。但是在微服务架构中，每个服务都有自己的API，这些API需要在多个节点上执行。这就需要一个组件来管理和路由所有的API请求。这个组件就是API网关。API网关是微服务架构中的一个组件，它可以帮助我们管理和路由所有的API请求。

overfit同步小助手 2023-09-21 09:04:00 0 收藏

hadoop中ResourceManager 进程或 NodeManager 进程没有启动

如果 ResourceManager 进程或 NodeManager 进程没有启动，可能是由于以下原因导致的:可能是 hadoop 配置文件中的错误导致的。您可以检查 hadoop 配置文件，确保所有参数都设置正确。可能是由于网络问题导致的。您可以检查网络连接是否正常，确保所有节点都能够连接到同一网

overfit同步小助手 2023-09-21 09:03:56 0 收藏

解决WARNING: /opt/hadoop-3.1.1/logs does not exist. Creating.

overfit同步小助手 2023-09-21 09:03:35 0 收藏

docker学习（七）docker daemon

远程访问的时候，需要保证两台服务器的API版本一致，通过“docker version”版本信息查看指令。默认情况下，Docker的守护进程使用的是“unix”模式来实现与客户端的通信。这里需要用“tcp”模式来进行网络交互。有两种方式配置：首先，在 docker daemon 配置文件 /lib/

overfit同步小助手 2023-09-21 08:03:51 0 收藏

阿里巴巴云如何利用大数据进行业务增长和优化

作者：禅与计算机程序设计艺术《2. 阿里巴巴云如何利用大数据进行业务增长和优化》2.1 引言随着互联网的高速发展，企业和组织需要面对越来越多的数据和信息。数据不仅带来了机遇，也带来了巨大的挑战。为了应对这些挑战，阿

overfit同步小助手 2023-09-21 08:03:36 0 收藏

HDFS 基本 shell 操作

overfit同步小助手 2023-09-21 07:03:45 0 收藏

Elasticsearch报错汇总

问题：bootstrap check failure [1] of [1]: Transport SSL must be enabled if security is enabled. Please set [xpack.security.transport.ssl.enabled] to [tru

overfit同步小助手 2023-09-21 06:03:48 0 收藏

【flink】使用flink-web-ui提交作业报错

换了地址以后提交作业成功了。OKOKOKOK，哈哈哈哈哈哈哈哈哈哈哈哈！看一下我的StateBackend 文件地址是哪里？查看这里：/job-manager/config。在弹框中是无法看到具体错误信息的。使用WebUI提交作业出现错误。上传的jar 包位置在哪里啊？在这个目录下面我没有办法创建。

overfit同步小助手 2023-09-21 04:03:57 0 收藏

Flink 系例之 SQL 案例 - 订单统计

示例，对电商实时订单进行聚合计算，分以下两个维度进行：1. 统计每 1 分钟的订单数量、用户数量、销售额、商品数；2. 统计每个分类的订单总数量、用户总数量（未去重）、销售额、商品数

overfit同步小助手 2023-09-21 04:03:41 0 收藏