大数据 - overfit.cn

Spark RDD、DataFrame和DataSet的区别

在比较这三者的区别之前，先看看他们各自的定义是什么。RDD是一种弹性分布式数据集，是一种只读分区数据。它是spark的基础数据结构，具有内存计算能力、数据容错性以及数据不可修改特性。Dataframe也是一种不可修改的分布式数据集合，它可以按列查询数据，类似于关系数据库里面的表结构。可以对数据指定数

overfit同步小助手 2024-06-06 14:03:45 0 收藏

【Rabbitmq使用】docker compose 命令重启rabbitmq后数据丢失问题

docker compose rabbitmq用户信息和虚拟主机信息丢失问题解决

overfit同步小助手 2024-06-06 14:03:30 0 收藏

Kafka：创建主题，查看主题，压力测试，发送和接收数据

在现今的大数据时代，数据流的处理与分析成为了许多企业和组织的核心需求。Apache Kafka作为一个分布式流处理平台，以其高性能、高吞吐量和可靠性在大数据领域崭露头角。它允许在分布式系统中处理和传输实时的数据流，为数据处理提供了全新的解决方案。对于Kafka的初学者和开发者来说，熟练掌握其基础操作

overfit同步小助手 2024-06-06 12:03:47 0 收藏

【数据仓库与数据挖掘】期末复习重点资料

等。

overfit同步小助手 2024-06-06 11:03:51 0 收藏

【大数据进阶第三阶段之Hue学习笔记】Hue的安装和使用

Hue的安装支持多种方式，包括rpm包的方式进行安装、tar.gz包的方式进行安装以及cloudera manager的方式来进行安装等，我们这里使用tar.gz包的方式来进行安装Hue的压缩包的下载地址：我们这里使用的是CDH5.14.0这个对应的版本，具体下载地址为。

overfit同步小助手 2024-06-06 10:03:52 0 收藏

RabbitMQ知识点

延时队列在需要延时处理的场景下非常有用，使用 RabbitMQ 来实现延时队列可以很好的利用RabbitMQ 的特性，如：消息可靠发送、消息可靠投递、死信队列来保障消息至少被消费一次以及未被正确处理的消息不会被丢弃。另外，通过 RabbitMQ 集群的特性，可以很好的解决单点故障问题，不会因为单个节

overfit同步小助手 2024-06-06 10:03:24 0 收藏

大数据、数据架构、推荐冷启动...小红书的 AI 数据新方案都在这个会

4 月 19 日 - 20 日，探索人工智能与数据最新行业实践，抽奖赢「DataFunCon 2024 · 上海站」门票！

overfit同步小助手 2024-06-06 09:03:56 0 收藏

RabbitMQ 中有哪几种交换机类型？

这种交换机根据消息的标头信息（Headers）来决定消息的路由，而不是使用路由键。队列和交换机之间的绑定规则是根据标头键值对来定义的，只有当消息的标头与绑定规则完全匹配时，消息才会被路由到队列。当消息发布到默认交换机时，路由键会被解释为队列的名称，消息会被路由到与路由键名称相同的队列。只有当消息的路

overfit同步小助手 2024-06-06 09:03:45 0 收藏

Hadoop平台安装及运行————详细版搭建流程

如果已经存在/output 目录，就要先删除/output目录，再执行上述命令。另外，只要运行过 HDFS，Hadoop 的工作目录（本书设置为/usr/local/src/hadoop/tmp）就会有数据，如果需要重新格式化，则在格式化之前一定要先删除工作目录下的数据，否则格式化时会出问题。

overfit同步小助手 2024-06-06 09:03:40 0 收藏

ZooKeeper节点类型

zookeeper节点类型

overfit同步小助手 2024-06-06 08:03:53 0 收藏

SparkException: A master URL必须在配置中设置

当你遇到错误时，这意味着你的Spark应用程序尝试启动时没有找到有效的master URL配置。Master URL是指定Spark集群的主节点地址，它对于初始化SparkContext是必需的。

overfit同步小助手 2024-06-06 08:03:46 0 收藏

Hive 基本操作命令与介绍

Hive是一个基于Hadoop的数据仓库工具，它提供了类似于SQL的查询语言HiveQL来对存储在Hadoop集群中的数据进行查询和分析。

overfit同步小助手 2024-06-06 07:03:50 0 收藏

大数据开发（Spark面试真题）

Spark Streaming是Spark提供用于实时流式数据处理和分析的库。它基于离散时间间隔将原始流式数据划分为小的批处理，然后将这些批次数据提供给Spark引擎进行处理。Spark内存管理机制通过动态划分内存空间为执行引擎和缓存两个部分来优化计算和访问速度。Executor Memory（执行

overfit同步小助手 2024-06-06 06:03:37 0 收藏

Springboot整合HBase——大数据技术之HBase2.x

Apache HBase 是以hdfs为数据存储的，一种分布式、可扩展的noSql数据库。是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase使用与BigTable（BigTable是一个稀疏的、分布式的、持久化

overfit同步小助手 2024-06-06 05:03:44 0 收藏

kafka3.7 集群 docker部署 springboot

使用最新版kafka3.7通过docker进行集群部署

overfit同步小助手 2024-06-06 05:03:40 0 收藏

Hive数据挖掘：洞察数据背后的秘密

1. 背景介绍1.1 大数据时代的机遇与挑战随着互联网和移动设备的普及，全球数据量呈现爆炸式增长。海量数据蕴藏着巨大的商业价值，但也给传统的数据处理技术带来了巨大挑战。如何高效地存储、管理和分析海量数据，成为企业面临的重大课题。1.2

overfit同步小助手 2024-06-06 05:03:35 0 收藏

大数据 - Doris系列《二》- Doris安装（亲测成功版）

BE 的磁盘空间主要用于存放用户数据，总磁盘空间按用户总数据量* 3（3 副本）计算，然后再预留额外 40%的空间用作后台 compaction 以及一些中间数据的存放。不认识，所有linux02和linux03的fe及be节点也需要向linux01的fe节点报道，这样才能写进元数据。参数，你将该命

overfit同步小助手 2024-06-06 04:03:46 0 收藏

Kafka 清空Topic

topic 清理

overfit同步小助手 2024-06-06 04:03:41 0 收藏

Kafka与RocketMq比较

MQ全称 Message Queue，也就是消息队列，是应用程序之间的通信方法。业务异步解耦解耦微服务流量削峰消息分发分布式事务的数据一致性。关于RocketMQ与Kafka从架构设计，数据可靠性，性能对比，消息投递实时性，消费失败重试，严格的信息顺序，定时信息，消息事务，故障恢复，使用场景，十大方

overfit同步小助手 2024-06-06 04:03:38 0 收藏

Docker 安装kafka 并创建topic 进行消息通信

Apache Kafka是一个分布式流处理平台，用于构建高性能、可扩展的实时数据流应用程序。本文将介绍如何使用Docker容器化技术来安装和配置Apache Kafka。通过使用Docker容器化技术，我们可以方便地安装和配置Apache Kafka，快速搭建一个可用的Kafka集群。这为我们开发和

overfit同步小助手 2024-06-06 03:03:37 0 收藏