大数据 - overfit.cn

五、Hadoop 分布式文件系统（HDFS）的原理与架构专业解析

HDFS 作为 Hadoop 生态系统的核心组件之一，主要承担大规模数据集的存储任务，并为 MapReduce 等分布式计算框架提供坚实的数据支持。其具备高容错性、高可靠性、高扩展性等显著特点，能够在成本相对低廉的硬件设备上稳定运行，尤其适用于处理海量的结构化和非结构化数据。Hadoop 分布式文件

overfit同步小助手 2024-12-01 04:04:06 0 收藏

【Hadoop核心技术】

Hadoop 是一个开源的分布式计算平台，主要用于存储和处理大规模数据集。它的设计初衷是为了能够在由普通硬件构建的集群上高效运行，通过分布式存储和分布式处理来应对数据量的增长和复杂的数据处理需求。Hadoop 具有高可扩展性、高可靠性和高效性等特点，被广泛应用于大数据领域，如互联网公司的数据仓库建设

overfit同步小助手 2024-12-01 03:04:00 0 收藏

django基于Hadoop 的国产电影数据分析与可视化

国产电影数据分析与可视化是对我国电影产业进行深入研究的过程。通过收集和分析电影的票房、评分、观众评价等数据，可以揭示电影市场的发展趋势、观众喜好以及影响电影成功的关键因素。利用数据可视化技术，将这些复杂数字信息转化为直观的图表和图形，有助于电影制作方、发行方和政策制定者更好地理解市场动态，优化决策，

overfit同步小助手 2024-12-01 03:03:55 0 收藏

【Flink-scala】DataStream编程模型之窗口的划分-时间概念-窗口计算程序

窗口划分，时间概念及窗口计算函数程序

overfit同步小助手 2024-12-01 03:03:52 0 收藏

spark sql 广播模式参数

控制小表自动广播的阈值。：控制广播的超时时间。：影响分区数，从而影响 Join 操作的性能。：控制自适应执行时广播的阈值。根据你的数据规模和场景，合理调整这些参数可以帮助优化 Spark SQL 的性能。

overfit同步小助手 2024-12-01 01:04:00 0 收藏

CentOS7安装RabbitMQ-3.13.7、修改端口号

事实上RabbitMQ在某个版本后（具体哪个暂不清楚）并没有生成配置文件，需要手动添加配置文件。15672：后台管理界面ui端口，进入管理后台时访问url如：http://localhost:15672/注：安装erlang之前先安装下依赖文件（这一步不要忘掉了，不然后面./configure的时候

overfit同步小助手 2024-12-01 01:03:55 0 收藏

Hadoop的三种运行模式：单机模式、伪分布式模式和完全分布式模式

yarn-site.xml：这个文件包含了YARN（Yet Another Resource Negotiator）的相关配置属性，比如NodeManager的内存限制 (yarn.nodemanager.resource.memory-mb)、ApplicationMaster的内存限制 (yar

overfit同步小助手 2024-12-01 01:03:30 0 收藏

Kafka+RabbitMQ+ActiveMQ看看消息队列设计精要9

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能，成为异步RPC的主要手段之一。当今市面上有很多主流的消息中间件，如老牌的ActiveMQ、RabbitMQ，炙手可热的Kafka，阿里巴巴自主开发的Notify、MetaQ、Rocke

overfit同步小助手 2024-12-01 00:03:17 0 收藏

Flink on yarn模式下，JobManager异常退出问题

这个问题排除了很久，其中更换了Flink版本，也更换了Hadoop版本一直无法解决，JobManager跑着跑着就异常退出了。其实提交Flink on Yarn的Pro-Job程序，从开始到结束都有心跳异常的错误。最后超过默认的超时时间180s就开始协商退出了，所以程序每次跑3分钟后就开始退出了。是

overfit同步小助手 2024-11-30 21:03:56 0 收藏

大数据技术之Spark ：我快呀～

由于 MapReduce 的计算模型只有 Map 和 Reduce 两个阶段，在实现复杂计算需求时就要编写多个 Mapper 和 Reducer 的实现。以上面800个数据块为例子，MapReduce 会有800次的 Map 计算结果落盘以及多个 Reduce 计算结果聚合（这个行为有一个专业的术语

overfit同步小助手 2024-11-30 21:03:43 0 收藏

毕设成品基于大数据情感分析的网络舆情分析系统(源码+论文)

Python下有多款不同的 Web 框架，Django是最有代表性的一种。许多成功的网站和APP都基于Django。Django是一个开源的Web应用框架，由Python写成。Django采用了MVC的软件设计模式，即模型M，视图V和控制器C。

overfit同步小助手 2024-11-30 20:03:27 0 收藏

一文了解大数据概论

1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。3）Secondary NameNode(2nn)：用来

overfit同步小助手 2024-11-30 19:03:24 0 收藏

快速入门消息队列MQ、RabbitMQ

微服务一旦拆分，必然涉及到服务之间的相互调用，目前我们服务之间调用采用的都是基于OpenFeign的调用。这种调用中，调用者发起请求后需要服务提供者执行业务返回结果后，才能继续执行后面的业务。也就是说调用者在调用过程中处于阻塞状态，因此我们称这种调用方式为，也可以叫。但在很多场景下，我们可能需要采用

overfit同步小助手 2024-11-30 17:03:42 0 收藏

Flink CDC系列之：学习理解核心概念——Transform

用户定义函数 (UDF) 可用于转换规则。实现 org.apache.flink.cdc.common.udf.UserDefinedFunction 接口具有无参数的公共构造函数至少有一个名为 eval 的公共方法覆盖 getReturnType 方法以指示其返回 CDC 类型覆盖 open 和

overfit同步小助手 2024-11-30 17:03:28 0 收藏

RabbitMQ的基本概念和入门

文将详细介绍RabbitMQ的基本概念、工作原理、应用场景以及其主要特性

overfit同步小助手 2024-11-30 15:03:52 0 收藏

springboot整合hive

overfit同步小助手 2024-11-30 14:03:59 0 收藏

RabbitMQ 如何保证消息不丢失？

要保证 RabbitMQ 的消息不丢失，需要从生产者、路由过程、消费者和 Broker 端采取一系列措施。消息丢失的常见原因包括：生产者发送失败、消息路由失败、消费者处理异常，以及 RabbitMQ 服务宕机未持久化。为解决生产者端的消息丢失问题，可以采用事务机制或发布确认机制，确保消息成功发送并得

overfit同步小助手 2024-11-30 13:04:08 0 收藏

jarchivelib 项目常见问题解决方案

jarchivelib 项目常见问题解决方案 jarchivelib A simple archiving and compression library for Java

overfit同步小助手 2024-11-30 12:03:57 0 收藏

RabbitMQ简单应用

RabbitMQ结合java的简单使用

overfit同步小助手 2024-11-30 12:03:54 0 收藏

Kafka之消费者客户端

对Kafka消费者客户端相关的知识进行介绍

overfit同步小助手 2024-11-30 11:03:54 0 收藏