大数据 - overfit.cn

Spark与Hadoop的关系和区别

Hadoop是一个由Apache基金会维护的开源分布式数据处理框架。Hadoop分布式文件系统（HDFS）：用于存储大规模数据的分布式文件系统。Hadoop MapReduce：用于分布式数据处理的编程模型和框架。Hadoop最初是为批处理任务设计的，适用于对大规模数据进行批处理分析。Spark与H

overfit同步小助手 2024-06-28 05:03:41 0 收藏

Kafka~基础原理与架构了解

Kafka我们了解一直认为是一个消息队列，但是其设计初，是一个：分布式流式处理平台。

overfit同步小助手 2024-06-28 04:03:33 0 收藏

kafka部分partition的leader=-1修复方案整理

部分环境发现，支撑kafka部分topic的被设置成单副本。当出现单机故障时，部分topic-partition出现leader=-1，对应的partition无法正常读写数据。特别是kafka内置的topic __consumer_offsets，__consumer_offsets 是记录top

overfit同步小助手 2024-06-28 03:03:47 0 收藏

【rabbitmq】rabbitmq与erlang的版本对应关系

rabbitmq与erlang的版本对应关系https://www.rabbitmq.com/docs/which-erlang

overfit同步小助手 2024-06-28 01:03:47 0 收藏

spark独立集群搭建

overfit同步小助手 2024-06-28 01:03:42 0 收藏

spark 实验二 RDD编程初级实践

请下载chapter4-data1.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：Jim,,60……

overfit同步小助手 2024-06-28 00:03:47 0 收藏

Kafka 新的消费组默认的偏移量设置和消费行为

overfit同步小助手 2024-06-27 18:03:44 0 收藏

基于医疗大数据的疾病诊断与预测模型研究

基于医疗大数据的疾病诊断与预测模型是医疗领域的一个重要研究方向。通过利用大数据的优势，这些模型可以提供更准确和可靠的诊断和预测结果，为医疗决策和公共卫生工作提供支持。然而，面临的技术挑战仍然需要克服，包括隐私保护、数据质量和模型解释性等问题。相信随着技术的不断进步和政策的规范，基于医疗大数据的疾病诊

overfit同步小助手 2024-06-27 18:03:41 0 收藏

Spark RDD案例：统计网站每月访问量

这个项目利用Spark技术，通过统计网站访问记录中的日期信息，实现了对每月访问量的统计和排序。通过分析数据，我们可以了解到不同月份的网站访问情况，为进一步优化网站内容和推广策略提供数据支持。

overfit同步小助手 2024-06-27 16:03:55 0 收藏

hadoop三大核心组件及其功能

Hadoop的三大核心组件是HDFS（Hadoop Distributed File System）、MapReduce和YARN（Yet Another Resource Negotiator）。以上三大组件共同构成了Hadoop的核心功能，它们分别负责数据的存储、计算和资源管理，为大数据处理提供

overfit同步小助手 2024-06-27 15:03:52 0 收藏

基于Hadoop的电商数据分析系统设计与实现

本文基于Hadoop的电商数据分析系统设计与实现。随着电商行业的快速发展，海量的电商数据成为了企业决策的重要资源。如何高效地处理和分析这些数据成为了一个紧迫的问题。本文从需求分析开始，对电商数据分析系统的功能和性能进行了详细的研究和设计。在系统设计中，采用了Hadoop作为底层的分布式计算框架，结合

overfit同步小助手 2024-06-27 15:03:44 0 收藏

Kafka 负载均衡挑战及解决思路

本文转载自 Agoda Enginnering, 介绍了 Kafka 负载均衡的实际应用过程中的负载均衡挑战及解决思路。

overfit同步小助手 2024-06-27 15:03:29 0 收藏

Hive on spark 多表full join 数据丢失大坑

长方形表示各表id所属范围，t1可能有t2没有的id，同时t2也有可能有t1没有的id，当t1、t2两者full join on t1.id=t2.id 后，若再要对t3表进行full join可以，但是join条件为on t2.id=t3.id，或者说是on t1.id=t3.id的时候都会出现一

overfit同步小助手 2024-06-27 13:03:47 0 收藏

HiveQL性能调优-概览

1、HiveQL 在执行时会转化为各种计算引擎的能够运行的算子，这里以mr引擎为切入点，要想让HiveQL 的效率更高，就要理解HiveQL 是如何转化为MapReduce任务的2、hive是基于hadoop的，分布式引擎采用mr、spark、tze，调度使用的yarn，分布式存储使用的hdfs，

overfit同步小助手 2024-06-27 12:03:50 0 收藏

hive DDL 语句

ShowDescribe在hive中DATABASE|SCHEMA是等效的，可以相互替代oRESTRICT: 默认值，在数据库中存在表的时候会失败，但如果是手动复制到该数据库下的，因为元数据中并没有相关信息，所以照样可以删除成功oCASCADE: 不管是否库中有表，全部删除。

overfit同步小助手 2024-06-27 12:03:45 0 收藏

18道kafka高频面试题（附答案）

这份文档从构建一个键值数据库的关键架构入手，不仅带你建立起全局观，还帮你迅速抓住核心主线。除此之外，还会具体讲解数据结构、线程模型、网络框架、持久化、主从同步和切片集群等，帮你搞懂底层原理。相信这对于所有层次的Redis使用者都是一份非常完美的教程了。你的支持，我的动力；祝各位前程似锦，offer不

overfit同步小助手 2024-06-27 12:03:27 0 收藏

Hive的存储格式和压缩算法的特点和选择

HIVE 中默认的存储格式；一般使用在数据贴源层(ODS 或 STG) ，针对需要使用脚本 LOAD 加载数据到 HIVE 数仓表中的情况；需要把表里数据导出或直接可以查看等场景，作为BI供数易读性要比 ORC 高很多；数据存储时不压缩，因此磁盘的开销和数据解析开销比较大；TEXTFILE 可以结合

overfit同步小助手 2024-06-27 11:03:50 0 收藏

Springboot整合Zookeeper分布式组件实例

Zookeeper是一个开源的分布式协调服务，主要用于分布式应用程序中的协调管理。它由Apache软件基金会维护，是Hadoop生态系统中的重要成员。Zookeeper提供了一个高效且可靠的分布式锁服务，以及群集管理功能，在分布式系统中起到了“守护神”的作用。

overfit同步小助手 2024-06-27 11:03:44 0 收藏

Kafka 实战 - Kafka Consumer 重置 Offset

在Kafka实战中，消费者（Consumer）有时需要重置其消费的偏移量（Offset），以重新处理特定范围或特定位置的消息。通过上述实战方法，您可以根据实际需求选择合适的方式重置Kafka Consumer的偏移量。：对于支持Exactly-Once语义的应用，重置偏移量可能需要配合其他补偿措施以

overfit同步小助手 2024-06-27 09:03:48 0 收藏

Kafka第一篇——内部组件概念架构启动服务器zookeeper选举以及底层原理

引入 ——为什么分布式系统需要用第三方软件？JMS对比组件架构推演——备份实现安全可靠，Zookeepercontroller的选举controller和broker底层通信原理BROKER内部组件编辑topic创建

overfit同步小助手 2024-06-27 09:03:44 0 收藏