大数据 - overfit.cn

flink多流操作（connect cogroup union broadcast）

2 connect连接操作2.1 connect 连接（DataStream,DataStream→ConnectedStreams)connect 翻译成中文意为连接，可以将两个数据类型一样也可以类型不一样 DataStream 连接成一个新的 ConnectedStreams。需要注意的是，c

overfit同步小助手 2024-02-25 03:03:43 0 收藏

Hive之set参数大全-16

在 Hive 中，是一个参数，用于配置 HiveServer2 的传输模式。该参数定义了 HiveServer2 使用的传输协议，可以是二进制（Binary）或 HTTP。以下是设置其中，是传输模式，可以是binary或http。请注意，这样的设置只对当前 HiveServer2 会话有效，当 Hi

overfit同步小助手 2024-02-25 01:03:46 0 收藏

RabbitMQ_基础

RabbitMQ 是一个被广泛应用于消息队列的开源消息代理软件。它实现了高级消息队列协议（AMQP），这是一种网络协议，用于提供可靠的消息传递服务。RabbitMQ 被设计用来在分布式系统中处理大量的消息，并提供了可靠的消息传输机制，以确保消息的安全和顺序传递。

overfit同步小助手 2024-02-25 01:03:38 0 收藏

3.Eureka注册中心

假如我们的服务提供者user-service部署了多个实例，如图：大家思考几个问题：这些问题都需要利用SpringCloud中的注册中心来解决，其中最广为人知的注册中心就是Eureka，其结构如下：回答之前的各个问题。问题1：order-service如何得知user-service实例地址？获取地

overfit同步小助手 2024-02-24 23:03:51 0 收藏

大数据技术3：数据仓库的ETL和分层模型

数据仓库是一个面向主题的集成的相对稳定的反映历史变化（Time Variant）的数据集合，用于支持管理决策。数据仓库概念是 Inmon 于 1990 年提出并给出了完整的建设方法。随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的

overfit同步小助手 2024-02-24 23:03:22 0 收藏

Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-03）

依赖关系分为窄依赖和宽依赖，窄依赖表示每个父RDD的分区最多只被一个子RDD的分区使用，宽依赖表示每个父RDD的分区可以被多个子RDD的分区使用。需要注意的是，RDD的分区函数是针对(Key,Value)类型的RDD，分区函数根据Key对RDD元素进行分区。RDD是Spark提供的最重要的抽象概念，

overfit同步小助手 2024-02-24 23:03:16 0 收藏

2024最新Spark核心知识点总结

转换(transformations) ：从已经存在的数据集中创建一个新的数据集，会创建一个新的RDD，例如map操作，会把数据集的每个元素传给函数处理，并生成一个新的RDD，常见如：Map,Filter,FlatMap,GroupByKey,ReduceByKey,Join,Sort,Partio

overfit同步小助手 2024-02-24 22:03:56 0 收藏

黑马头条 Kafka

Kafka消息队列，文章上下架，解决头条系统的点赞，评论，收藏等

overfit同步小助手 2024-02-24 22:03:52 0 收藏

Hive调优-计算资源分配

有些时候，代码运行速度慢、效率低，可能仅仅是因为资源分配不当。

overfit同步小助手 2024-02-24 22:03:32 0 收藏

Java分布式锁理论（redis、zookeeper）详解

1、定时任务2、秒杀抢购，防止库存超卖的问题3、双写一致性协议比如我们为了高可用性搭建了服务集群，分别是8080和8081，我们在项目中设立定时任务，目的是每天晚上定时拉取用户数据，给每个人发送一些推荐短信。那么这会出现什么问题呢？8080和8081都有定时任务，到半夜2点同时查询数据库，同时调用阿

overfit同步小助手 2024-02-24 21:03:45 0 收藏

【RabbitMQ】MQ的基本概念、RabbitMQ简介及安装

本文涉及MQ的基本概念、RabbitMQ简介、RabbitMQ的安装等内容

overfit同步小助手 2024-02-24 21:03:35 0 收藏

HBase性能优化与调参

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase具有高可用性、高可扩展性和强一致性等特点，适用于大规模数据存储和实时数据处理。随着数

overfit同步小助手 2024-02-24 21:03:28 0 收藏

【SpringBoot+Eureka知识总结】

④启动各个eurekaServer服务，输入其注册地址，看到页面上的ds deplicas栏下其注册的其他eurekaServer节点地址，application可看到注册到上面的微服务节点，即完成集群的搭建。原理：相同的微服务名称下，对应多个微服务模块，客户端访问时只需要关心注册到eureka的微

overfit同步小助手 2024-02-24 20:04:01 0 收藏

RabbitMQ的高可用机制

RabbitMQ通过多种机制提供高可用性(HA)支持，以确保消息系统的稳定性和可靠性。下面将详细介绍这些机制，并提供代码示例。

overfit同步小助手 2024-02-24 20:03:44 0 收藏

ClickHouse与ApacheKafka的集成

1.背景介绍1. 背景介绍ClickHouse 是一个高性能的列式数据库，主要用于实时数据分析和报告。它具有高速查询、高吞吐量和低延迟等优势。Apache Kafka 是一个分布式流处理平台，用于构建实时数据流管道和流处理应用。在现代数据技术中，ClickHouse 和 Kafka 常常被用于构建实

overfit同步小助手 2024-02-24 20:03:22 0 收藏

【RabbitMQ】交换机的概念及使用

RabbitMQ中，交换机是一个核心概念，主要用来将生产者生产出来的消息，传送到对应的队列中。实际上，生产者生产的消息从不会直接发送到队列，而是发送到交换机。交换机一方面接收来自生产者的消息，另一方面将这些消息推入队列。

overfit同步小助手 2024-02-24 18:03:39 0 收藏

Windows下使用hadoop+hive+sparkSQL

在windows下使用spark-sql的解决办法，包括windows下使用hdfs的解决办法

overfit同步小助手 2024-02-24 18:03:34 0 收藏

Zookeeper的安全性与权限管理

1.背景介绍1. 背景介绍Apache Zookeeper是一个开源的分布式协调服务，用于构建分布式应用程序的基础设施。它提供了一种可靠的、高性能的、分布式的协同服务，以实现分布式应用程序的一致性。Zookeeper的核心功能包括：集群管理、配置管理、同步服务、组件协同等。在分布式系统中，Zooke

overfit同步小助手 2024-02-24 17:03:55 0 收藏

Apache Hadoop介绍, 大数据世界的大门

存储: HDFS, HBase计算: MapReduce, Hive, Spark, Flink传输: Sqoop, Flume, Kafka...下面是关于大数据体系的详细概念图Hadoop之父: 道格卡丁(Doug Cutting)吉祥物: 大象Hadoop的介绍:在狭义上指的是HDFS,

overfit同步小助手 2024-02-24 17:03:18 0 收藏

【并发编程】JUC并发编程（彻底搞懂JUC）

JUC实际上就是我们对于jdk中java.util .concurrent 工具包的简称，其结构如下：这个包下都是Java处理线程相关的类，自jdk1.5后出现。目的就是为了更好的支持高并发任务。让开发者进行多线程编程时减少竞争条件和死锁的问题！JUC主要是指JDK8中java.util.concu

overfit同步小助手 2024-02-24 14:03:41 0 收藏