大数据 - overfit.cn

RabbitMQ 常见错误汇总

RabbitMQ默认只有一个guest帐号，guest帐号只能在RabbitMQ安装服务器上登录，在其它服务器用guest登录提示User can only log in via localhost。容器模式： sudo docker exec -it rabbitmq-server bash。ra

overfit同步小助手 2024-09-18 23:03:42 0 收藏

一文搞懂EureKa原理

想要搞懂Eureka服务端/客户端的逻辑实现，看这篇文章就够了。。。从源码层面分析Eureka Server 和 Eureka Client通信过程

overfit同步小助手 2024-09-18 22:03:16 0 收藏

hadoop之MapReduce

Hadoop的三大组件：HDFS、Yarn、MapReduce。HDFS：解决的是分布式存储的问题。MapReduce: 解决的是计算问题。Yarn: 计算的时候，使用的资源如何协调（Windows操作系统）mapReduce的优缺点：优点1、易于编程代码写起来有固定的格式，编写难度非常的小，号称是

overfit同步小助手 2024-09-18 20:03:48 0 收藏

Hive与Sqoop：高效数据迁移

Hive与Sqoop：高效数据迁移作者：禅与计算机程序设计艺术1. 背景介绍在当今大数据时代，企业需要处理和分析海量的数据以获取有价值的洞见。Hadoop生态系统提供了一套强大的工具来应对这一挑战，其中Hive和Sqoop是两个关键组件，用于高效地处理和迁移结构化和半

overfit同步小助手 2024-09-18 20:03:38 0 收藏

Kafka 中的消息Key：探索其背后的奥秘

在Kafka中，消息是由键值对组成的，其中键被称为key，而值被称为value。消息Key主要用于控制消息的分发和路由，它决定了消息会被发送到哪个分区。消息Key的重要性：消息路由：通过设置消息Key，可以精确控制消息被发送到哪个分区。数据一致性：对于需要保持顺序或者按某种模式分组的数据，使用消息K

overfit同步小助手 2024-09-18 19:03:39 0 收藏

【Bigtop】利用Bigtop3.2.0编译大数据组件RPM包

Bigtop 从0开始参考了上述的博文自己尝试了编译组件，过程还是遇到很多问题，一一记录，方便后人

overfit同步小助手 2024-09-18 19:03:36 0 收藏

hive搭建 -----内嵌模式和本地模式

hive的搭建，常用的本地模式以及不常用的内嵌模式

overfit同步小助手 2024-09-18 17:03:36 0 收藏

Kafka：浅谈对Kafka的认识

消息系统都致力于让Consumer以最大的速率最快速的消费消息，一些消息系统比如Scribe和Apache Flume采用了Push模式，将消息推送到下游的Consumer。更进一步的性能优化是零拷贝的使用，也就是从磁盘日志到消费者客户端的数据传递，因为Kafka是MQ，对于msg不具备加工处理，所

overfit同步小助手 2024-09-18 16:03:34 0 收藏

毕设项目 python大数据旅游数据分析可视化系统(源码分享)

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩 **基于python的旅游数据分析可视

overfit同步小助手 2024-09-18 16:03:22 0 收藏

Kafka 实战 - Kafka Consumer 重置 Offset

使用AdminClient.resetOffsets()方法，指定消费者组、偏移量规格（基于目标时间点）以及受影响的TopicPartition，执行偏移量重置操作。在开发测试过程中，可能需要消费一段时间的消息，来验证数据的可靠性，这里需要消费者（Consumer）重置其消费的偏移量（Offset）

overfit同步小助手 2024-09-18 15:03:51 0 收藏

Kafka 实战演练：创建、配置与测试 Kafka全面教程

本文档只是为了留档方便以后工作运维，或者给同事分享文档内容比较简陋命令也不是特别全，不适合小白观看，如有不懂可以私信，上班期间都是在得

overfit同步小助手 2024-09-18 15:03:38 0 收藏

FlinkCEP与社交媒体分析：实时热点话题识别

FlinkCEP与社交媒体分析：实时热点话题识别作者：禅与计算机程序设计艺术1. 背景介绍1.1 社交媒体数据的价值社交媒体平台如微博、Twitter、Facebook 等已经成为人们获取信息、分享

overfit同步小助手 2024-09-18 14:03:55 0 收藏

大数据计算的新纪元：火星（Mars）框架深度探索

大数据计算的新纪元：火星（Mars）框架深度探索 marsmars-project/mars: Mars（大规模多维数组计算框架）是阿里云开发的一个开源分布式计算框架，主要用于解决大数据分析领域中大规模多维数组数据的高效处理问题，特别适合于机器学习、科学计算等领域。项目地址:https://gitc

overfit同步小助手 2024-09-18 14:03:49 0 收藏

学习大数据DAY56 业务理解和第一次接入

ERP 系统，（Enterprise Resource Planning，企业资源计划系统）：ERP 系统。OA 系统，（Office Automation System，办公自动化系统）：OA 系统是一种用。Parquet：这是另一种列存储格式，它旨在提供跨平台的文件格式，可以很好地。是一种用于管

overfit同步小助手 2024-09-18 14:03:44 0 收藏

毕设开源 python大数据旅游数据分析可视化系统(源码分享)

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩 **基于python的旅游数据分析可视

overfit同步小助手 2024-09-18 14:03:40 0 收藏

kafka 通过 flink 将数据落到 doris 的原理

整个流程的关键在于利用 Flink 的流处理能力，将 Kafka 中实时生成的数据高效处理后，直接导入 Doris 中，以便支持后续的分析和查询工作。通过这种集成，可以实现高效的实时数据分析平台，支持海量数据的处理和快速响应的业务需求。

overfit同步小助手 2024-09-18 14:03:25 0 收藏

【大数据】MapReduce的“内存增强版”——Spark

在大数据时代，数据处理和分析成为企业竞争的重要手段。Hadoop作为大数据处理的基石，其核心组件MapReduce在众多场景中发挥了巨大作用。但是随着业务数据变多业务变复杂，MapReduce在处理速度、迭代计算等方面逐渐暴露出局限性

overfit同步小助手 2024-09-18 13:03:39 0 收藏

基于Spark机器学习的电影推荐系统实战教程——ml-100k数据集

本文还有配套的精品资源，点击获取简介：本文详细介绍如何使用Spark的机器学习库MLlib构建电影推荐系统，并以ml-100k数据集为例，指导读者完成推荐系统的各个阶段，包括数据预处理、协同过滤模型构建、模型评估与调优、推荐生成和在线服务集成等。读者通过学习此课程，将理解推荐系统的核心算法原理

overfit同步小助手 2024-09-18 12:03:25 0 收藏

hbase命令行操作

1.进入命令行。

overfit同步小助手 2024-09-18 12:03:15 0 收藏

探索高效数据查询：Analysys Presto-HBase-Connector

探索高效数据查询：Analysys Presto-HBase-Connector presto-hbase-connectorpresto hbase connector 组件基于Presto Connector接口规范实现，用来给Presto增加查询HBase的功能。相比其他开源版本的HBase

overfit同步小助手 2024-09-18 10:03:51 0 收藏