大数据 - overfit.cn

数据仓库扫盲系列（1）：数据仓库诞生原因、基本特点、和数据库的区别

随着互联网的普及，信息技术已经深入到各行各业，并逐步融入到企业的日常运营中。然而，当前企业在信息化建设过程中遇到了一些困境与挑战。过去企业的业务系统往往是在较长时间内建设的，很少进行大面积的改造或者升级，历史数据留存在业务系统中。随着业务的不断增长，历史数据使用频率低，业务数据库中的历史数据越来越多

overfit同步小助手 2023-12-04 12:03:24 0 收藏

RabbitMQ重复消费

解决 RabbitMQ 重复消费问题是消息队列应用中非常重要的一部分。在实际应用中，可能会出现消费者因某种原因（例如网络问题、应用崩溃等）在处理消息时失败，然后重新开始处理相同的消息，导致消息的重复消费。为了解决这个问题，我们可以采用一些方法和策略来确保消息不会被重复消费。

overfit同步小助手 2023-12-04 11:03:49 0 收藏

Flink 中KeyBy、分区、分组的正确理解

数据具体去往哪个分区，是通过指定的 key 值先进行一次 hash 再进行一次 murmurHash，通过上述计算得到的值再与并行度进行相应的计算得到。在Flink中，KeyBy作为我们常用的一个聚合类型算子，它可以按照相同的Key对数据进行重新分区，分区之后分配到对应的子任务当中去。Flink中的

overfit同步小助手 2023-12-04 11:03:32 0 收藏

ZooKeeper

随着项目的逐渐变大，整个开发流程的时间也会变得很长，即使在仅仅更改了一行代码的情况下，软件开发人员需要花费几十分钟甚至超过一个小时的时间对所有代码进行编译，并接下来花费大量的时间重新部署刚刚生成的产品，以验证自己的更改是否正确。项目变得越来越大的同时，我们的应用所使用的技术也会变得越来越多。服务和服

overfit同步小助手 2023-12-04 11:03:21 0 收藏

HBase 常用的Shell命令

注意：delete 命令不能跨列族操作，如果需要删除表中的某一行数据，则需要使用 deleteall 命令，此时不需要指定列族和列的名称。注意：delete 操作并不会马上删除数据，只会将对应的数据打上删除标记，只有在HBase底层合并数据时，数据才会被真正删除。命令：put ‘表名’,‘Rowke

overfit同步小助手 2023-12-04 07:03:41 0 收藏

企业数字化过程中数据仓库与商业智能的目标

显然，需要一整套的技能，这些技能既包括数据库管理的技能，也包括商业分析师的技能，才能更好地适应DW/BI的商业盛筵。精心组织不同来源的数据，实现数据清洗，确保质量，只有在数据真正适合用户的需要时发布。对操作型系统来说，用户无法对其加以选择，只能使用新系统，而对DW/BI系统来说，与操作型系统不同的是

overfit同步小助手 2023-12-04 03:03:46 0 收藏

Hadoop相关知识点

hdfs dfs -put ~/input/file.txt /test 和 hdfs dfs -put /input/file.txt /test 的区别在于文件的来源路径。B. 维护HDFS集群的所有数据块的分布、副本数和负载均衡：NameNode记录每个数据块的位置和副本信息，并负责管理数据块

overfit同步小助手 2023-12-04 00:03:48 0 收藏

跟着chatgpt学习|1.spark入门

总结起来，Cluster Manager负责资源的分配和任务调度，Driver负责解析用户程序并协调任务的执行，而Executor负责实际执行任务并返回计算结果。它们三者一起协作，实现了Spark应用程序的分布式计算。是Spark提供的机器学习库，包含了常见的机器学习算法和工具，用于数据挖掘和模型训

overfit同步小助手 2023-12-03 23:03:42 0 收藏

zookeeper看这一篇就够了

12341. zookeeper最早起源于雅虎研究院的一个研究小组2. 在雅虎内部很多大型系统基本都需要依赖一个类似的系统来进行分布式协调,并且这个系统还有单点问题3. 雅虎的开发人员就试图开发一个通用的无单点问题的分布式协调框架,以便让开发人员将精力集中在处理业务逻辑上,这是最早zookeeper

overfit同步小助手 2023-12-03 22:03:44 0 收藏

大数据库可视化模版34：晋城高速综合管控大数据

Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功

overfit同步小助手 2023-12-03 21:03:41 0 收藏

（保姆级）Hadoop-3.3.6、jdk_8u381搭建（大数据入门）

保姆级带领新手小白，完成hadoop-3.3.6、jdk_8u381的搭建

overfit同步小助手 2023-12-03 18:03:39 0 收藏

微服务: 04-springboot中rabbitmq的yml或properties配置,消息回收,序列化方式

rabbitmq的连接配置, 以及回收机制配置, 修改默认java序列化方式#beta版 rabbitmq V3.0.1 版本启动测试 pzy===============================================>#基础配置#发送确认机制设置#发布消息成功到交换器后会触发回调

overfit同步小助手 2023-12-03 17:03:47 0 收藏

Sqoop将hive处理的数据导出到MySQL

sqoop将hive数据导出到mysql

overfit同步小助手 2023-12-03 17:03:42 0 收藏

HBase表数据的读、写操作与综合操作

实验任务1：使用MapReduce批量将HBase表中数据导入到HDFS上。表名和表中数据自拟。实验任务2：使用MapReduce批量将HDFS上的数据导入到HBase表中。表名和数据自拟，建议体现个人学号或姓名。使用Java编程创建表和删除表，表名和列族自拟。实验任务3：在实验任务1和实验任务2的

overfit同步小助手 2023-12-03 16:03:46 0 收藏

Docker中的RabbitMQ已经启动运行，但是管理界面打不开

肯定有好多小伙伴在学习RabbitMQ的过程中，发现镜像运行，但是我的管理界面怎么进不去，或者说我第一天可以进去，怎么第二天进不去了，为什么每次重新打开虚拟机都进不去了。下面我总结了解决这两种问题的方法，都是个人经历过的血泪。以上就是本人的血泪记录。

overfit同步小助手 2023-12-03 16:03:42 0 收藏

CAP定理下：Zookeeper、Eureka、Nacos简单分析

在CAP定理下简单分析Zookeeper、Nacos、Eureka

overfit同步小助手 2023-12-03 16:03:23 0 收藏

Flink中的窗口

本文主要介绍了窗口的分类以及各个窗口的API

overfit同步小助手 2023-12-03 14:03:22 0 收藏

Hive double类型强转string类型并解决科学计数法问题

overfit同步小助手 2023-12-03 13:03:50 0 收藏

rabbitmq和rocketmq区别

开发语言和生态： RabbitMQ基于Erlang开发，采用AMQP协议，支持多种编程语言，比如Java、Python、Ruby等；高可用性： RabbitMQ具有较高的可用性和可靠性，支持主从模式、镜像队列等多种高可用部署方式。RocketMQ也支持主从模式和多副本同步复制，但是在某些情况下可能会

overfit同步小助手 2023-12-03 13:03:42 0 收藏

kafka的 ack 应答机制

replica）就是 Kafka 为某个分区维护的一组同步集合，即每个分区都有自己的一个 ISR 集合，处于 ISR 集合中的副本，意味着 follower 副本与 leader 副本保持同步状态，只有处于 ISR 集合中的副本才有资格被选举为 leader。partition的leader落盘成

overfit同步小助手 2023-12-03 12:03:47 0 收藏