大数据 - overfit.cn

HBase 开发：使用Java操作HBase

overfit同步小助手 2023-04-26 00:03:38 0 收藏

Windows下安装使用Kafka(使用Kafka内置的ZooKeeper)

overfit同步小助手 2023-04-26 00:03:35 0 收藏

Flink UI部署jar包报错

Flink RestHandlerException: Could not execute applicationThe LocalStreamEnvironment cannot be used when submitting a program through a client, or runn

overfit同步小助手 2023-04-25 22:03:43 0 收藏

Flink sql 写ddl连接kafka

flink sql 连接kafka 的DDL语句和提交java.lang.NoClassDefFoundError: org/apache/kafka/clients/consumer/OffsetResetStrategy Recovery is suppressed by NoRestartBa

overfit同步小助手 2023-04-25 22:03:39 0 收藏

二、使用java简单操作kafka

springboot整合kafka，java简单操作kafka

overfit同步小助手 2023-04-25 22:03:36 0 收藏

RestClient操作索引库

RestClient使用

overfit同步小助手 2023-04-25 20:03:51 0 收藏

拉链表详解

拉链表数据生成的思路是：ods更新或者新增的数据 + union +dwd拉链表历史数据（要更改历史数据中状态发生改变的字段）。设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。拉链表可以避免按每一天存储所有记录造成的海量存储问题，同时也是处理缓慢变化数据（SCD2）的一种常见方式。

overfit同步小助手 2023-04-25 19:03:43 0 收藏

ES快照备份及恢复（ES数据迁移）

新集群恢复快照B（snapshot_B.2023****），因快照恢复会删除原有同名索引，恢复时需要重命名索引文件。旧集群创建快照A(snapshot_A.2023****)新集群恢复快照A(snapshot_A.2023****)旧集群备份快照B（snapshot_B.2023****）需搭建共享

overfit同步小助手 2023-04-25 19:03:40 0 收藏

Elasticsearch：如何在 CentOS 上创建多节点的 Elasticsearch 集群 - 8.x

在今天的文章中，我来详细描述如何从零开始来创建一个含有三个节点的 Elasticsearch 集群。我们最终实现的是如下的 Elasticsearch 集群。如上所示，我们有三台运行 CentOS 的机器。它们的 IP 地址分别列在上面。我们将在这些机器上部署最新的 Elastic Stack 8.

overfit同步小助手 2023-04-25 18:03:50 0 收藏

springboot rabbitmq 非阻塞重试机制实现

比如，系统之间同步数据，A系统发送数据给B系统，因为网络原因或者B系统正在重启，可能收不到信息，为了确保B能收到消息就得重试几次；经典的比如，对后台通知交互时，如果微信收到商户的应答不符合规范或超时，微信认为通知失败，微信会通过一定的策略定期重新发起通知，尽可能提高通知的成功率，但微信不保证通知最终

overfit同步小助手 2023-04-25 18:03:35 0 收藏

【实时数仓】介绍、需求分析、统计架构分析和ods层日志行为数据采集

普通的实时计算优先考虑时效性，所以从数据源采集经过实时计算直接得到结果。如此做时效性更好，但是弊端是由于计算过程中的中间结果没有沉淀下来，所以当面对大量实时需求的时候，计算的复用性较差（如B想要使用A的结果），开发成本随着需求增加直线上升。实时数仓基于一定的数据仓库理念，对数据处理流程进行规划、分层

overfit同步小助手 2023-04-25 17:03:45 0 收藏

【大数据开发】报错汇总

开发中遇到的报错汇总

overfit同步小助手 2023-04-25 16:03:48 0 收藏

Kafka 动态配置

动态配置 : 修改参数后，无需重启 Broker 就能生效。

overfit同步小助手 2023-04-25 14:03:41 0 收藏

elasticsearch 7.9.3知识归纳整理（五）之 es的索引生命周期管理

es的索引生命周期管理

overfit同步小助手 2023-04-25 13:03:39 0 收藏

Kafka版本滚动升级（不停机）

升级Kafka集群的版本其实很简单，核心步骤只需要4步，但是我们需要在升级的过程中确保每一步操作都不会“打扰”到producer和consumer的正常运转。注意：替换新版broker后，注意查看新版broker是否已经注册到zookeeper，所在机器上的的副本是否已经可用。注意：启动3.4.0的

overfit同步小助手 2023-04-25 12:03:50 0 收藏

ES避坑指南

这个过程可能会改变词条（例如，小写化 Quick ），删除词条（例如，像 a， and， the 等无用词），或者增加词条（例如，像 jump 和 leap 这种同义词）。我们这个拥有6个分片（3个主分片和3个副本分片）的索引可以最大扩容到6个节点，每个节点上存在一个分片，并且每个分片拥有所在节点

overfit同步小助手 2023-04-25 09:03:57 0 收藏

文本挖掘学习笔记（三）：文档相似度、文档分类和情感分析

全文基于《射雕英雄传》语料库，下面是读入数据的一个基于Pandas的通用操作框架。1.文档相似度计算两个词相似度的原理：简单的说，就是将每个词的向量在空间上进行余弦运算，当cos越接近0时候，两者越相似。词袋模型不考虑词条之间的相关性，因此无法用于计算词条相似度。分布式表达会考虑词条的上下文关联，因

overfit同步小助手 2023-04-25 09:03:42 0 收藏

RabbitMQ的几种消息确认机制详细介绍

本篇文章将详细介绍RabbitMQ的几种消息确认机制，面试必问的地方，感兴趣的大佬可以看下。

overfit同步小助手 2023-04-25 08:04:07 0 收藏

大数据计算框架及引擎介绍

主流的大数据处理框架包括以下三类五种：1、仅批处理框架：Apache Hadoop2、仅流处理框架：Apache Storm、Apache Samza3、混合框架：Apache Spark、Apache Flink

overfit同步小助手 2023-04-25 07:03:59 0 收藏

Docker版RabbitMQ安装延迟队列插件及延迟队列项目应用实战

在项目中经常有延迟业务处理的背景，此时可以借助于Rabbitmq的延迟队列进行实现，但Rabbitmq本身并不支持延迟队列，但可以通过安装插件的方式实现延迟队列。

overfit同步小助手 2023-04-25 06:04:30 0 收藏