大数据 - overfit.cn

【Hadoop】大数据开发环境配置

注意：格式化操作只能执行一次，如果格式化的时候失败了，可以修改配置文件后再执行格式化，如果格式化成功了就不能再重复执行了，否则集群就会出现问题。hadoop集群就会使用到ssh，我们在启动集群的时候只需要在一台机器上启动就行，然后hadoop会通过ssh连到其它机器，把其它机器上面对应的程序也启动起

overfit同步小助手 2023-10-20 05:03:09 0 收藏

PG14归档失败解决办法archiver failed on wal_lsn

overfit同步小助手 2023-10-20 03:03:37 0 收藏

Spring整合RabbitMQ——生产者

添加依赖坐标，在producer和consumer模块的pom文件中各复制一份。配置producer的xml配置文件。配置producer的配置文件。

overfit同步小助手 2023-10-20 01:03:36 0 收藏

【项目实战】在win10上安装配置Hadoop的环境变量

在win10操作系统上，运行Hadoop以及其相关依赖包（比如Hbase依赖包）时，我遇到的情况是，我需要使用SpringBoot+Phoenix的组合去连接Hbase。这往往是需要在本机（Windows 10 ）上安装配置 Hadoop 环境变量才能够得到返回值的。以下是具体的安装配置 Hadoo

overfit同步小助手 2023-10-20 00:03:53 0 收藏

大数据学习(2)Hadoop-分布式资源计算hive(1)

Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。那为什么会有Hive呢？它是为了解决什么问题而诞生的呢？下面通过一个案例，来快速了解一下Hive。例如：需求，统计单词出现个数。（1）在Hadoop课程中我们用MapRe

overfit同步小助手 2023-10-20 00:03:48 0 收藏

深入理解 Flink Time and Windows

作者：禅与计算机程序设计艺术 1.简介Apache Flink是一个开源的分布式流处理平台，它的运行时就是基于数据流模型的实时计算引擎，能够处理实时的大规模数据流。Flink提供Java、Scala、Python、Golang等多种编程语言API接口及多种批处理

overfit同步小助手 2023-10-19 23:03:37 0 收藏

Python黑马程序员（Spark实战）笔记

注意：字符串返回的是['a','b','c','d','e','f','g'] 字典返回的是['key1','key2']#func(T)-->U:告知按照rdd中的哪一个数据进行排序，比如lambda x:x[1]表示按照rdd中的第二列元素进行排序。百度网盘：链接：https://pan.b

overfit同步小助手 2023-10-19 22:03:49 0 收藏

insert overwrite table：数据仓库和数据分析中的常用技术

"INSERT OVERWRITE TABLE：清空和重新加载表中的数据"

overfit同步小助手 2023-10-19 22:03:19 0 收藏

RabbitMQ-API

MQ默认是采用轮询的方式分发消息，但是有的消费者处理很慢，就会导致消息积压，可以设置不公平分发，消费者进行应答之后，才会接收下一条消息。了部分突然它挂掉了，会发生什么情况。,因为这种模式如果消息在接收到之前，消费者那边出现连接或者 channel 关闭，那么消息就丢。默认消息采用的是自动应答，所以我

overfit同步小助手 2023-10-19 21:03:42 0 收藏

大数据课堂笔记 HDFS的shell操作

HDFS的shell操作

overfit同步小助手 2023-10-19 21:03:23 0 收藏

Zookeeper的选举机制

Zookeeper的选举机制是它的一项核心功能，用于在分布式系统中选择一个领导者（leader）来处理各种请求和操作。服务器ID（Server ID）：每个Zookeeper服务器在启动时都会被分配一个唯一的服务器ID（SID）。这个ID用于标识服务器在集群中的位置和角色。选举状态（Election

overfit同步小助手 2023-10-19 20:03:54 0 收藏

结构化数据处理与分析：Spark SQL 教程

作者：禅与计算机程序设计艺术 1.简介1.1 概述Apache Spark 是由 Apache 基金会开发的开源分布式计算框架，最初用于对大规模数据进行快速的处理，在大数据计算领域占据重要地位。其独特的高性能处理能力及丰富的数据处理功能使得 Spark 在各个

overfit同步小助手 2023-10-19 15:03:41 0 收藏

Zookeeper下载安装

下载地址：https://downloads.apache.org/zookeeper。

overfit同步小助手 2023-10-19 15:03:26 0 收藏

任务调度框架-如何实现定时任务+RabbitMQ事务+手动ACK

overfit同步小助手 2023-10-19 15:03:18 0 收藏

Spark Streaming 模型实践:

作者：禅与计算机程序设计艺术 1.简介概述Apache Spark™ 是开源的、快速的、通用大数据分析引擎，它支持多种编程语言，包括 Scala、Java、Python、R 和 SQL。Spark 提供了高级的 API 来处理数据流，同时还具有强大的机器学习能力

overfit同步小助手 2023-10-19 14:04:12 0 收藏

【Zookeeper专题】Zookeeper经典应用场景实战（一）

ZooKeeper ： Curator框架之数据缓存与监听CuratorCache。

overfit同步小助手 2023-10-19 12:03:54 0 收藏

Kafka生产者原理 kafka生产者发送流程 kafka消息发送到集群步骤 kafka如何发送消息 kafka详解

第一次调用时随机生成一个整数（后面每次调用在这个整数上自增），将这个值与 topic 可用的 partition 总数取余得到 partition 值，也就是常说的 round-robin 算法。6. 消息缓存到RecordAccumulator收集器，分配到该分区的DQueue(RecordBat

overfit同步小助手 2023-10-19 12:03:28 0 收藏

2023_Spark_实验十二：Spark高级算子使用

Spark高级算子，Scala开发，idea

overfit同步小助手 2023-10-19 11:03:33 0 收藏

zookeeper应用场景（二）

优点：Zookeeper分布式锁（如InterProcessMutex），具备高可用、可重入、阻塞锁特性，可解决失效死锁问题缺点：因为需要频繁的创建和删除节点，性能上不如redis在高性能、高并发场景下，不建议用Zookeeper的分布式锁。而由于Zookeeper的高可靠性，因此在并发量不是太高的

overfit同步小助手 2023-10-19 09:03:42 0 收藏

【微服务 SpringCloud】实用篇 · Eureka注册中心

本文主要讲解的内容是微服务SpringCloud中的一个重要组件，注册中心的Eureka，讲解服务如何注册与拉取！

overfit同步小助手 2023-10-19 09:03:09 0 收藏