大数据 - overfit.cn

Spark常见报错

shuffle read是container请求external shuffle服务获取数据过程，external shuffle是NodeManager进程中的一个服务，默认端口是7337，或者通过spark.shuffle.service.port指定。解决方案：针对原因(1)，调大spark.

overfit同步小助手 2023-09-20 04:03:45 0 收藏

基于Zookeeper实现分布式锁

在Zookeeper中的指定路径下创建创建节点，然后客户端根据当前路径下的节点状态来判断是否加锁成功，如下图一种情况为例，线程1创建节点成功后，线程2再去创建节点就会创建失败。（3）如果加锁次数等于0，则释放锁，删除掉创建的临时节点，下一个监听这个节点的客户端会感知到节点删除事件，从而重新去获取锁。

overfit同步小助手 2023-09-20 02:03:42 0 收藏

老司机带你彻底吃透大数据：内容包括：数据采集、存储、处理、分析、挖掘与可视化、实时计算、机器学习等方面知识点的全面总结

大数据技术经过几十年的发展，已经成为当今互联网领域最热门的话题。相信每一个对大数据感兴趣的人都听说过这个词，但对于如何正确使用大数据的却有太多误区，甚至有些人认为大数据已经没有什么卵用了。这里，《老司机带你彻底吃透大数据》就是要告诉大家真正正确的大数据应用方法，让大家能够真正解决一些实际的问题。在写

overfit同步小助手 2023-09-20 02:03:31 0 收藏

Eureka 学习笔记4：客户端 DiscoveryClient

当从服务端拉取注册列表的请求超时（即 TimedSupervisorTask 捕获 TimeoutException 异常时），下一次拉取的时间间隔会成倍递增，递增后的时间间隔不能超过。：当向服务端续约的请求超时（即 TimedSupervisorTask 捕获 TimeoutException 异

overfit同步小助手 2023-09-20 01:04:07 0 收藏

【大数据毕设】基于Hadoop的音乐推荐系统论文(三)

基于Hadoop的音乐推荐系统的课题研究目的主要包括以下几个方面：音乐数据处理和管理：收集音乐数据，并通过Hadoop的分布式文件系统HDFS对音乐数据进行存储和管理。此外，对音乐数据进行预处理和清洗，包括音乐信息的提取、歌词分析、音乐特征提取等，以便后续的分析和处理。用户行为数据收集：收集用户行为

overfit同步小助手 2023-09-20 01:04:00 0 收藏

hadoop分布式系统复习题选择题

D 、 HDFS 有高容错性的特点，并且设计用来部署在低廉的（low- cost ）硬件上。C 、 HDFS 为海量的数据提供了存储，而 MapReduce 为海量的数据提供了计算。C 、每个文件的 Block 大小和复制（ Replication ）因子都是可配置的。D 、响应客户端的所有读写数据

overfit同步小助手 2023-09-20 00:04:16 0 收藏

让Zookeeper更高效：高可用性扩展策略

作者：禅与计算机程序设计艺术《58. 让Zookeeper更高效：高可用性扩展策略》引言1.1. 背景介绍随着分布式系统的广泛应用，Zookeeper作为一致性系统的核心组件，在分布式

overfit同步小助手 2023-09-20 00:04:09 0 收藏

大数据篇Kafka消息队列指定Topic打印Key、Value、Offset和Partition

overfit同步小助手 2023-09-20 00:03:43 0 收藏

Kafka性能篇：为何Kafka这么“快“？

Kafka Broker 的。

overfit同步小助手 2023-09-19 23:04:01 0 收藏

大数据平台搭建之hive本地模式安装

hive的基本介绍，hive的架构，hive的本地模式搭建

overfit同步小助手 2023-09-19 22:04:05 0 收藏

zookeeper常用命令

可以是具体IP也可以是IP/bit格式，即IP转换为二进制，匹配前bit位，如192.168.0.0/16匹配192.168..节点的数据是有版本概念的，这个参数用于指定本次更新操作是基于ZNode的哪一个数据版本进行的。语法：setAcl 路径 world:anyone:权限。语法：setAcl

overfit同步小助手 2023-09-19 22:03:37 0 收藏

华为云MapReduce、ModelArts实现大数据综合案例-在线拍卖数据分析

华为云MapReduce、ModelArts实现大数据综合案例-在线拍卖数据分析,完整版：https://bbs.huaweicloud.com/blogs/380728

overfit同步小助手 2023-09-19 18:03:26 0 收藏

2023_Spark_实验四：SCALA基础

Scala基础，通过Scala交互命名学习Scala基础语法，学习数据常用类型，变量声明，Scala函数与方法，条件表达式，循环，函数参数类型，数组，元组，映射等基础知识。

overfit同步小助手 2023-09-19 16:03:48 0 收藏

分别使用Redis、MySQL、ZooKeeper构建分布式锁

overfit同步小助手 2023-09-19 14:04:04 0 收藏

RabbitMQ的5种消息队列

overfit同步小助手 2023-09-19 14:03:45 0 收藏

Spark第三课

sortby方法需要传3个参数参数1 排序规则参数2 升序还是降序(false) 默认升序(true)参数3 排序的分区数量(说明方法底层是靠shuffle实现,所以才有改变分区的能力)如何区分是键值对方法还是单值方法呢?通过参数来判断, 如果参数是一个值,就是单值,如果是2个,就是键值对直接对v

overfit同步小助手 2023-09-19 13:03:54 0 收藏

RabbitMQ实现消息的延迟推送或延迟发送

*** RabbitMQ常量/*** 交换机/*** 延时交换机（通过延时插件实现 rabbitmq_delayed_message_exchange）} /*** 队列/*** 延时队列（通过延时插件实现）} /*** 路由key/*** 延时路由key（通过延时插件实现）} }

overfit同步小助手 2023-09-19 12:04:01 0 收藏

【RabbitMQ】之高可用集群搭建

1、默认集群原理单台 RabbitMQ 服务器处理消息的能力是有瓶颈的，而且可靠性还无法保证，所以需要通过集群来提高消息的吞吐量和提高数据可靠性。由于 RabbitMQ 本身是基于Erlang编写，而Erlang 语言天生具备分布式特性通过同步 Erlang 集群各节点的 erlang.cookie

overfit同步小助手 2023-09-19 10:03:50 0 收藏

HBase入门(一)

HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。

overfit同步小助手 2023-09-19 09:04:39 0 收藏

根据源码，模拟实现 RabbitMQ - 实现消息持久化，统一硬盘操作(3)

根据源码，自己手敲一个 RabbitMQ？

overfit同步小助手 2023-09-19 09:04:29 0 收藏