大数据 - overfit.cn

数据仓库选型建议

overfit同步小助手 2024-03-04 06:03:21 0 收藏

PySpark（三）RDD持久化、共享变量、Spark内核制度，Spark Shuffle、Spark执行流程

RDD之间进行相互迭代计算(Transformation的转换),当执行开启后,新RDD的生成,代表老RDD的消失RDD的数据是过程数据,只在处理的过程中存在,一旦处理完成，就不见了例如下面这个例子，生成rdd4的时候， rdd3已经被销毁了，然后下面rdd5需要调用rdd3的时候，只能从rdd->

overfit同步小助手 2024-03-04 06:03:16 0 收藏

简述 zookeeper 基于 Zab 协议实现选主及事务提交

Zab 协议：zookeeper 基于Paxos 协议的改进协议 zookeeper atomicbroadcast 原子广播协议。zookeeper 基于 Zab 协议实现选主及事务提交。一、为什么需要选主？选主是复杂分布式服务的一个特有机制，旨在保障系统数据的一致性。分布式服务一般对于数据的存储

overfit同步小助手 2024-03-04 05:03:53 0 收藏

【flink番外篇】15、Flink维表实战之6种实现方式-维表来源于第三方数据源

一、Flink 专栏Flink 专栏系统介绍某一知识点，并辅以具体的示例进行说明。1、Flink 部署系列本部分介绍Flink的部署、配置相关基础内容。2、Flink基础系列本部分介绍Flink 的基础部分，比如术语、架构、编程模型、编程指南、基本的datastream api用法、四大基石等内容。

overfit同步小助手 2024-03-04 05:03:50 0 收藏

【Hadoop】指定分区键KeyFieldBasedPartitioner（MapReduce分层随机抽样）

有一个txt文件，统计的样本将是文本文件中的行。把文本分为 3 类：i) 包含偶数个单词的行ii) 单词数为奇数的行iii) 包含一个或两个单词的行（将其视为一个单独的组而不是奇数或偶数组）然后，根据算法随机选择样本。你想怎样随机性取决于你（确保你形成一种方式，如果你运行多次编写代码，您最终不会选择

overfit同步小助手 2024-03-04 04:03:30 0 收藏

【Docker】安装及相关的命令

【Docker】安装及相关的命令---详细讲解

overfit同步小助手 2024-03-04 04:03:11 0 收藏

【hive】行转列—explode()/posexplode()/lateral view 函数使用场景

overfit同步小助手 2024-03-04 03:03:54 0 收藏

RabbitMQ

(队列满了,无法再添加信的数据到MQ中,MQ会采取一定的策略来处理这些无法存储的新消息.最常见的策略是丢弃队列中的旧消息(例如最早进入队列未被消费的消息)来为新消息腾出空间.被丢弃的就消息就成为死信,如果队列配置了死信交换机(DLX),这些死信会被发送到指定的死信交换机,或被路由到特定的死信队列中)

overfit同步小助手 2024-03-04 03:03:28 0 收藏

RabbitMQ实现延迟消息的方式-死信队列、延迟队列和惰性队列

Lazy Queues惰性队列，惰性队列在接收到消息后会直接存入到磁盘中（而非内存），并且在消费者要消费消息时才会从磁盘中读取到并加载到内存，基于这个特性多以惰性队列支持百万条消息的存储。可用于解决消息堆积问题（当生产者发送消息的速度超过消费者处理消息的速度，会导致队列中的消息堆积，直到队列存储消息

overfit同步小助手 2024-03-04 02:03:50 0 收藏

大数据与社交媒体：数据挖掘与分析

1.背景介绍社交媒体是现代互联网的重要组成部分，它们为用户提供了一种互动、分享和沟通的平台。随着社交媒体的普及和发展，生成的数据量越来越大，成为了一种新型的大数据。大数据技术在社交媒体领域具有广泛的应用，包括用户行为分析、社交关系挖掘、内容推荐、趋势预测等。在这篇文章中，我们将深入探讨大数据与社交媒

overfit同步小助手 2024-03-04 01:03:49 0 收藏

【计算机毕设项目】基于大数据个性化音乐推荐算法分析

基于大数据个性化音乐推荐算法分析提示：适合用于课程设计或毕业设计，工作量达标，源码开放。

overfit同步小助手 2024-03-04 01:03:29 0 收藏

ELFK采集Oracle日志（一）：使用Filebeat采集到Kafka

【操作记录】使用Filebeat采集Oracle日志到Kafka

overfit同步小助手 2024-03-04 01:03:24 0 收藏

Hbase和Clickhouse对比简单总结

Hbase和Clickhouse是两种不同的数据库系统，它们各自适用于不同的场景。以下是两者之间的对比：数据模型：数据处理能力：可扩展性和可靠性：存储引擎：性能：总结来说，HBase 和 ClickHouse各有优势，选择哪一种取决于具体的应用需求。HBase 适合需要快速随机访问的大规模数据集，而

overfit同步小助手 2024-03-04 00:03:56 0 收藏

flinkcdc 3.0 源码学习之任务提交脚本flink-cdc.sh

flinkcdc3.0源码解读第一篇提交脚本flink-cdc.sh解读

overfit同步小助手 2024-03-04 00:03:53 0 收藏

Spark: a little summary

对于数据分区中的数据记录，Spark 会根据我们前面提到的公式 1 逐条计算记录所属的目标分区 ID，然后把主键（Reduce Task Partition ID，Record Key）和记录的数据值插入到 Map 数据结构中。到此为之，磁盘上存有若干个溢出的临时文件，而内存的 Map 结构中留有部

overfit同步小助手 2024-03-04 00:03:47 0 收藏

RabbitMQ开启MQTT协议支持

overfit同步小助手 2024-03-03 23:03:47 0 收藏

hadoop ha安装

Hadoop是一个开源的分布式存储和计算框架，最初由Apache软件基金会开发。它的发展背景可以追溯到Google的MapReduce和Google File System（GFS）的论文，这两篇论文启发了Hadoop的设计。Hadoop的主要应用场景包括大数据存储、处理和分析，特别是在需要处理海量

overfit同步小助手 2024-03-03 21:03:32 0 收藏

MySQL与Apache Hadoop数据库

1.背景介绍MySQL和Apache Hadoop都是大数据处理领域中非常重要的技术，它们各自具有不同的优势和适用场景。MySQL是一种关系型数据库管理系统，主要用于处理结构化数据，而Apache Hadoop是一个分布式文件系统和数据处理框架，主要用于处理非结构化数据和大规模数据。在现代数据处理中

overfit同步小助手 2024-03-03 20:03:59 0 收藏

RabbitMQ概念

保证消息一定能发到消息队列中细节保证mq节点成功接受消息消息发送端需要接受到mq服务端接收到消息的确认应答完善的消息补偿机制，发送失败的消息可以再感知并二次处理RabbitMQ消息投递路径生产者-->交换机-->队列-->消费者通过两个点的控制，保证消息的可靠性投递生产者到交换机 confirmCa

overfit同步小助手 2024-03-03 20:03:55 0 收藏

【Spark原理系列】自定义聚合函数 UserDefinedAggregateFunction 原理用法示例源码分析

`UserDefinedAggregateFunction` 是 Spark SQL 中用于实现用户自定义聚合函数（UDAF）的抽象类。通过继承该类并实现其中的方法，可以创建自定义的聚合函数，并在 Spark SQL 中使用。

overfit同步小助手 2024-03-03 20:03:40 0 收藏