大数据 - overfit.cn

Kafka 如何保证可靠性

在如今的分布式环境时代，任何一款中间件产品，大多都有一套机制去保证高可用的，Kafka 作为一个商业级消息中间件，消息可靠性的重要性可想而知，那 Kafka 如何保证可靠性的呢？本文从 Producer 往 Broker 发送消息、Topic 分区副本以及 Leader 选举几个角度介绍 Kafka

overfit同步小助手 2024-06-30 18:03:33 0 收藏

Apache Flink 和 Apache Spark详细介绍、优缺点、使用场景以及选型抉择？

Apache Flink 是一个用于分布式流处理和批处理的开源框架。它以实时数据处理和事件驱动的流处理著称，提供高吞吐量和低延迟的处理能力。

overfit同步小助手 2024-06-30 18:03:22 0 收藏

Go 如何通过 Kafka 客户端库生产与消费消息

overfit同步小助手 2024-06-30 17:03:49 0 收藏

【大数据】—二手车用户数据可视化分析案例

Sales_ID(销售ID)name(二手车名称)year(购车年份)selling_price(二手车当前销售价格)km_driven(总行驶公里数)Region(使用地区)State or Province(使用的州或省)City(使用城市)fuel(燃料类型)seller_type(谁在出售汽

overfit同步小助手 2024-06-30 17:03:42 0 收藏

【精】hadoop、HIVE大数据从0到1部署及应用实战

ETL，即数据抽取（Extract）、转换（Transform）和加载（Load）的过程，是数据仓库领域中的一个重要概念。简单来说，ETL过程就是从各种数据源中抽取数据，将这些数据按照一定的规则进行转换，并最终将这些数据加载到目标数据仓库或其他数据存储系统中。在ETL过程中，数据抽取阶段主要涉及到从

overfit同步小助手 2024-06-30 17:03:38 0 收藏

Ansible——unarchive模块

src描述：要解压缩的文件路径，可以是本地路径或远程 URL。类型：字符串必需：是dest描述：解压缩文件的目标路径。类型：字符串默认值：当前工作目录remote_src描述：如果为yes，则将src参数指定的文件视为远程文件。如果为no，则将其视为本地文件。类型：布尔值no描述：如果为yes，则将

overfit同步小助手 2024-06-30 16:03:48 0 收藏

Kafka 如何保证数据不丢失？不重复

当设置成false时，由于是手动提交的，可以处理一条提交一条，也可以处理一批，提交一批，由于consumer在消费数据时是按一个batch来的，当pull了30条数据时，如果我们处理一条，提交一个offset，这样会严重影响消费的能力，那就需要我们来按一批来处理，或者设置一个累加器，处理一条加1，如

overfit同步小助手 2024-06-30 16:03:13 0 收藏

毕业设计：基于python的农产品价格预测系统大数据深度学习

毕业设计：基于python的农产品价格预测系统用深度学习技术和大数据分析方法，实现了对农产品价格的准确预测。通过深入研究农产品价格波动规律、特征提取、预测模型构建等关键技术，我们的系统能够在复杂的市场环境中快速准确地预测农产品价格。对于计算机专业、软件工程专业、人工智能专业、大数据专业的毕业生而言，

overfit同步小助手 2024-06-30 15:03:49 0 收藏

Kafka精要

overfit同步小助手 2024-06-30 15:03:27 0 收藏

项目：仿RabbitMQ实现的消息队列组件

仿RabbitMQ实现的消息队列组件项目

overfit同步小助手 2024-06-30 14:03:26 0 收藏

Zookeeper Watcher机制原理与代码实例讲解

随着分布式系统的不断发展,对协调服务的依赖也日益增加。Zookeeper作为成熟稳定的分布式协调服务,其应用场景将不断拓展。同时,基于Zookeeper的上层应用和框架也将不断涌现,进一步降低分布式系统开发难度。A: Zookeeper客户端与服务端之间通过长连接通信,注册Watcher后,服务端只

overfit同步小助手 2024-06-30 12:03:18 0 收藏

深入解析 RocketMQ 和 Kafka 的消息压缩机制

消息队列系统在现代分布式系统中扮演着重要角色，它们不仅需要高效地传递消息，还需要在传输过程中尽量减少带宽和存储的占用。消息压缩是一种常见的优化手段，可以显著减少消息的体积。本文将详细探讨 RocketMQ 和 Kafka 的消息压缩机制，并对比它们的优劣，帮助你选择适合自己系统的压缩方式。

overfit同步小助手 2024-06-30 11:03:51 0 收藏

在Mac上安装Hive.4.0.0（M3：基于arm架构）

要先装好Hadoop，mysql哦！！jdk也自己装好，要装1.8的。由于M系列芯片使用的是arm架构所以，在mac使用brew下载的hive会报错这里我直接去阿里镜像上下载下载这个带着bin的然后解压（在mac里面可以不用tar命令，直接点压缩包它自己会解压，然后把压缩包找个目录保存好，重命名ma

overfit同步小助手 2024-06-30 11:03:45 0 收藏

【大数据复习】第3章分布式文件系统HDFS（重中之重）

D. 当客户端读取文件的时候,会先读取该信息文件,然后,利用该信息文件对每个读取的数据块进行校验,如果校验出错,客户端就会请求到另外一个数据节点读取该文件块,并且向名称节点报告这个文件块有错误,名称节点会定期检查并且重新复制这个块。B. 当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自

overfit同步小助手 2024-06-30 10:03:49 0 收藏

大数据之Hadoop的特点是什么？有什么优缺点？有哪些发行版本？

Hadoop 是一个开源的分布式存储和计算框架，由 Apache 软件基金会维护。Hadoop 的这些特点使其成为处理大规模数据集的理想选择，广泛应用于互联网、金融、医疗、科研等领域。

overfit同步小助手 2024-06-30 09:03:51 0 收藏

rabbitmq登录管理页面提示：不是私密连接

原因是使用guest默认密码登录，需要添加一个新账户或修改已有账户的密码。

overfit同步小助手 2024-06-30 09:03:18 0 收藏

项目实践---Windows11中安装Zookeeper/Hadoop/Hive

Windows11中安装Hadoop/Hive

overfit同步小助手 2024-06-30 09:03:15 0 收藏

【大数据复习】第4章 HBase（重点）

（2）如果要对hdfs上存储的海量数据进行增删改查,，我要往里面插入数据，还要修改数据，还有删除里面某一行的数据，还要精确的查询某一行数据，这是hdfs做不到的，所以有了HBase。（3）客户端并不是直接从Master主服务器上读取数据，而是通过Zookeeper获得Region的存储位置信息后，直

overfit同步小助手 2024-06-30 08:03:23 0 收藏

大数据技术Hadoop -- Hive的基本操作

（8）查询stocks表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所(exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。（4）创建一个未分区的外部表dividends_unpartitioned，并从divide

overfit同步小助手 2024-06-30 07:03:49 0 收藏

centos安装RabbitMQ

介绍如何下载及安装rabbitmq

overfit同步小助手 2024-06-30 07:03:36 0 收藏