大数据 - overfit.cn

大数据生态守护：Hadoop的深度保护策略

此外，Hadoop平台本身的脆弱性、网络攻击的不断升级以及数据备份的复杂性等因素，都使得数据保护成为Hadoop生态中不可或缺的一环。此外，PIG、Hive、Mahout、HBase、Avro、Sqoop等工具各具特色，共同构成了Hadoop生态的多元化处理能力。保护拥有大规模数据的Hadoop环境

overfit同步小助手 2024-11-15 07:03:38 0 收藏

大数据-213 数据挖掘机器学习理论 - KMeans Python 实现距离计算函数质心函数聚类函数

我们需要定义一个两个长度相等的数组之间欧式距离计算函数，在不直接应用计算结果，只比较距离远近的情况下，我们可以用距离平方和代替距离进行比较，化简开平方运算，从而减少函数计算量。此外需要说明的是，涉及到距离计算的，一定要注意量纲的统一。在定义随机质心生成函数时，首先需要计算每列数值的范围，然后从该范围

overfit同步小助手 2024-11-15 06:03:30 0 收藏

【数据分析】Power BI的使用教程

Power BI使用教程

overfit同步小助手 2024-11-15 04:03:42 0 收藏

Kafka篇之清理或创建topic

kafka创建或清理topic

overfit同步小助手 2024-11-15 03:03:45 0 收藏

rabbitmq 单机部署以及集群部署（多机单节点，单机多节点）

overfit同步小助手 2024-11-15 02:03:45 0 收藏

Zookeeper实现Hadoop高可用集群

一、zookeeper概述ZooKeeper概念: Zookeeper是一个分布式协调服务的开源框架。本质上是一个分布式的小文件存储系统ZooKeeper作用: 主要用来解决分布式集群中应用系统的一致性问题。ZooKeeper结构: 采用树形层次结构，ZooKeeper树中的每个节点被称为—Znod

overfit同步小助手 2024-11-15 02:03:24 0 收藏

Kafka+RabbitMQ+ActiveMQ看看消息队列设计精要6

消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能，成为异步RPC的主要手段之一。当今市面上有很多主流的消息中间件，如老牌的ActiveMQ、RabbitMQ，炙手可热的Kafka，阿里巴巴自主开发的Notify、MetaQ、Rocke

overfit同步小助手 2024-11-15 01:03:14 0 收藏

Hive 必知必会

Hive是一个基于Hadoop的数据仓库工具，可以将sql转为MR或Spark任务进行运算，又可以说是MapReduce或Spark sql的客户端；由于直接使用MR进行开发的难度大，学习成本高，所以采用了类sql语法的hive。支持的计算引擎：MR、Tez、Spark，暂不展开。

overfit同步小助手 2024-11-15 00:04:06 0 收藏

nacos的原理，为什么可以作为注册中心，和zookeeper的区别

Nacos是为微服务架构设计的一站式服务治理平台，功能丰富，支持服务注册、健康检查、配置管理等功能，支持多种协议和模式，使用简单且灵活，适合现代云原生应用场景。Zookeeper则更强调一致性和强大的分布式协调能力，适合对数据一致性要求更高的系统，但它缺少 Nacos 那样丰富的服务治理功能，使用起

overfit同步小助手 2024-11-15 00:03:54 0 收藏

hadoop-Zookeeper安装

本文主要描述zookeeper的安装过程

overfit同步小助手 2024-11-15 00:03:50 0 收藏

springboot 整合 rabbitMQ（1）

MQ概述，优势劣势，rabbitMQ的使用（普通队列模式）

overfit同步小助手 2024-11-15 00:03:34 0 收藏

springboot基于大数据的音乐数据分析系统(源码+vue+hadoop+hive+大数据+可视化大屏展示等)

💗博主介绍：✨全网拥有20W+粉丝、CSDN作者、博客专家、全栈领域优质创作者、平台优质Java创作者、专注于Java、小程序、python、安卓技术领域和毕业项目实战✌💟！✨💗👇🏻 精彩专栏推荐订阅👇🏻计算机毕业设计设计精品实战案例✅随着互联网技术不断地发展，网络与大数据成为了人们

overfit同步小助手 2024-11-14 22:03:42 0 收藏

2023_Spark_实验十：Centos_Spark Local模式部署

参考这篇博客：【Centos8_配置单节点伪分布式Spark环境】_centos8伪分布式环境搭建-CSDN博客

overfit同步小助手 2024-11-14 21:03:44 0 收藏

RabbitMQ

#RabbitMQ #个人笔记 # 参考其他大佬的

overfit同步小助手 2024-11-14 21:03:42 0 收藏

【Hive】2-Apache Hive概述、架构、组件、数据模型

Apache Hive概述、架构、组件、数据模型

overfit同步小助手 2024-11-14 18:03:23 0 收藏

KafKa为什么这么快？

在如今的MQ中三分天下性能之王的必然是Kafkka呢，为什么呢？最简单的就是kafka的单机吞吐量在百万级别以上。而RabbitMQ单机吞吐量在10万级别以下，而阿里开源的RocketMQ在二者之间十万到百万级别，那为什么kafka可以这么快呢，我总结了以下几点原因，如下图，我们可以从以下几个角度来

overfit同步小助手 2024-11-14 17:03:47 0 收藏

RabbitMQ 存储机制

在将消息从 Delta 转移到 Q3 的过程中，是按照索引分段读取的，首先读取某一段，然后判断读取的消息的个数与 Delta 中消息的个数是否相等，如果相等，则可以判定此时 Delta 中已无消息，则直接将 Q2 和刚读取到的消息一并放入到 Q3 中；即使是持久化的消息，在被写入磁盘的同时也会在内存

overfit同步小助手 2024-11-14 17:03:37 0 收藏

大数据系列之：Doris Kafka Connector，实时消费Kafka Topic中的数据同步到Doris数据库

overfit同步小助手 2024-11-14 16:04:02 0 收藏

数据仓库构建的两种方法：自上向下、自下向上

数据仓库是在统一模式下组织的数据源异构集合。构建数据仓库有两种方法：自上而下法和自下而上法解释如下。

overfit同步小助手 2024-11-14 16:03:52 0 收藏

Hive基础

Hive是构建在Hadoop之上的数据仓库工具，它提供了一种机制来查询和管理PB级别的分布式存储数据。Hive使用类似于SQL的查询语言——HiveQL，使得熟悉SQL的用户能够轻松地进行大数据处理。通过Hive，可以将复杂的MapReduce任务简化为简单的查询语句，极大地提高了开发效率。Hive

overfit同步小助手 2024-11-14 14:03:40 0 收藏