大数据 - overfit.cn

【Flink】Flink 和 Kafka 连接时的精确一次保证

overfit同步小助手 2023-03-23 21:04:38 0 收藏

拉链表详解

拉链表产生背景在数据仓库的数据模型设计过程中，经常会遇到这样的需求：1、数据量比较大；2、表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等；3、需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间

overfit同步小助手 2023-03-23 21:04:35 0 收藏

实时数仓架构那些事儿

架构师要做的事情很多，不同的项目，不同的公司体量，不同的人员数量都会有不同的技术选型，进而形成不同的架构。在这里，我只想聊流批一体的实时数仓架构，不聊离线数仓架构，不聊Java架构 OR 微服务架构；聊更多的是架构思路，而不是某个技术的详细培训。...

overfit同步小助手 2023-03-23 21:04:32 0 收藏

银河麒麟V10 sp2安装RabbitMQ

overfit同步小助手 2023-03-23 21:04:27 0 收藏

全基因组测序数据分析---WGS主流程

全基因组测序数据分析

overfit同步小助手 2023-03-23 21:04:24 0 收藏

Minio

miniominio分布式minio单机minio 客户端mc 客户端

overfit同步小助手 2023-03-23 20:05:24 0 收藏

Flink 读写MySQL数据（DataStream和Table API）

Flink提供了基于JDBC的方式，可以将读取到的数据写入到MySQL中；本文通过两种方式将数据下入到MySQL数据库，其他的基于JDBC的数据库类似，另外，Table API方式的Catalog指定为Hive Catalog方式，持久化DDL操作。Maven依赖，包含了Hive Catalog的相

overfit同步小助手 2023-03-23 20:05:18 0 收藏

Elasticsearch - Elasticsearch 8.X；Elasticsearch 8.X集群（十）

支持矩阵 | Elastic。

overfit同步小助手 2023-03-23 20:05:12 0 收藏

Kafka由浅入深（3）一文读懂弃用默认分区器DefaultPartitioner KIP-794

KIP-480：Sticky Partitioner引入了 UniformStickyPartitioner 并使其成为默认分区器。事实证明，尽管被称为统一粘性分区器（ UniformStickyPartitioner），但粘性分区器存在问题而实际上并没有统一。

overfit同步小助手 2023-03-23 20:05:09 0 收藏

大数据大比拼：Hive vs HBase，你知道两者的区别和适用场景吗？

Apache Hive和Apache HBase是两个非常流行的分布式数据存储技术。尽管两者都是Apache软件基金会的项目，但它们被设计用于不同的用例。在本篇博客中，我们将介绍Hive和HBase的基本概念，以及它们的区别和应用场景。

overfit同步小助手 2023-03-23 20:05:05 0 收藏

【UML】UML建模

用例图参与者、用例的基本概念。1.2 用例描述的格式要求。1.3 绘制用例图。2 类图和对象图2.1 类图的基本概念。2.2 分析识别类，绘制类图。2.3 绘制对象图。3 顺序图3.1 顺序图的组成。3.2 顺序图中的消息类型。3.3 绘制顺序图。4 状态图4.1 状态机的含义。4.2 状态机图中的

overfit同步小助手 2023-03-23 20:05:02 0 收藏

Eureka注册中心和Nacos注册中心详解以及Nacos与Eureka有什么区别？

Nacos和Eureka整体结构类似，服务注册、服务拉取、心跳等待，但是也存在差异。Nacos与eureka的共同点: 1.都支持服务注册和服务拉取2.都支持服务提供者心跳方式做健康检测。Nacos与Eureka的区别：1.Nacos支持服务端主动检测提供者状态：临时实例采用心跳模式，非临时实例采用

overfit同步小助手 2023-03-23 20:04:59 0 收藏

单线程事件处理器ControllerEventManager

单线程事件处理器，Controller端定义的一个组件。该组件内置了一个专属线程，负责处理其他线程发送过来的Controller事件。还定义了一些管理方法，为专属线程输送待处理事件。0.11.0.0版本前，Controller组件源码复杂。集群元数据信息在程序中同时被多个线程访问，因此，源码里有大量

overfit同步小助手 2023-03-23 20:04:55 0 收藏

SQL Server创建表和添加列

撰写时间：2022 年 4 月 27日 SQLServer创建表和添加列SQL Server创建表：表用于在数据库中存储数据；表在数据库和模式中唯一命名。每个表包含一个或多个列。每列都有一个相关的数据类型，用于定义它可以存储的数据类型，例如：数字，字符串和日期。要创建新表，请使用c

overfit同步小助手 2023-03-23 20:04:51 0 收藏

RabbitMQ(rabbitmq-delayed-message-exchange)实现延时任务

什么是延时任务？在我们生活中比较常业务见场景的如下：在如上场景中延时周期为固定时段。另外还有一种延时周期不固定的业务场景如下：业务场景：平台方发布预运行计划，预计划中需限定申报截至时间，参与方需在截止前申报各自实际运行计划给平台后由平台统筹运行计划安排。需求分析：由于是预计划，会存在截至时间不确定的

overfit同步小助手 2023-03-23 20:04:46 0 收藏

大数据毕设选题 - 深度学习图像超分辨率重建（opencv python cnn）

🔥 Hi，大家好，这里是丹成学长的毕设系列文章！🔥 对毕设有任何疑问都可以问学长哦!这两年开始，各个学校对毕设的要求越来越高，难度也越来越大… 毕业设计耗费时间，耗费精力，甚至有些题目即使是专业的老师或者硕士生也需要很长时间，所以一旦发现问题，一定要提前准备，避免到后面措手不及，草草了事。为了

overfit同步小助手 2023-03-23 20:04:43 0 收藏

（面试经典问题）HDFS上传文件（写）流程

HDFS写流程详述，以及面试如何回答

overfit同步小助手 2023-03-23 20:04:40 0 收藏

【毕业设计】基于机器学习与大数据的糖尿病预测

本项目以体检数据集为样本进行了机器学习的预测，但是需要注意几个问题：体检数据量太少，仅有1006条可分析数据，这对于糖尿病预测来说是远远不足的，所分析的结果代表性不强。这里的数据糖尿病和正常人基本相当，而真实的数据具有很强的不平衡性。也就是说，糖尿病患者要远少于正常人，这种不平衡的数据集给真实情况下

overfit同步小助手 2023-03-23 20:04:37 0 收藏

总结：K8s之HPA

一、介绍 HPA的全称为（Horizontal Pod Autoscaling）它可以根据当前pod资源的使用率（如CPU、磁盘、内存等），进行副本数的动态的扩...

overfit同步小助手 2023-03-23 20:04:33 0 收藏

RabbitMQ正常运行无法访问15672端口

RabbitMQ正常运行无法访问15672端口首先确定是否安装了RabbitMQ的web管理界面，安装命令如下:rabbitmq-plugins enable rabbitmq_management安装了RabbitMQ的管理界面以后重启RabbitMQ服务:systemctl restart ra

overfit同步小助手 2023-03-23 20:04:31 0 收藏