大数据 - overfit.cn

数据仓库与数据集成：实现高效的数据分析

1.背景介绍数据仓库和数据集成是现代数据科学和数据分析的核心技术。数据仓库是一种用于存储、管理和分析大量结构化数据的系统，而数据集成是将来自不同来源的数据进行整合、清洗和转换的过程。在今天的数据驱动经济中，数据仓库和数据集成技术已经成为企业和组织的核心竞争力，能够帮助他们更快更准确地做出决策。在本文

overfit同步小助手 2024-02-15 20:03:47 0 收藏

5.0 ZooKeeper 数据模型 znode 结构详解

在 zookeeper 中，可以说 zookeeper 中的所有存储的数据是由 znode 组成的，节点也称为 znode，并以 key/value 形式存储数据。我们直观的看到此时存储的数据在根目录下存在 runoob 和 zookeeper 两个节点，zookeeper 节点下存在 quota

overfit同步小助手 2024-02-15 20:03:22 0 收藏

MQ面试题之Kafka

本文详细介绍了Kafka核心知识，有利于深入理解消息队列。

overfit同步小助手 2024-02-15 19:03:35 0 收藏

RabbitMQ之五种消息模型

虚拟主机：类似于mysql中的database。他们都是以“/”开头。

overfit同步小助手 2024-02-15 19:03:31 0 收藏

hive 创建表字段类型

这些只是部分常见的字段类型，还有其他更多的选项可供使用。在Hive中创建表时可以指定不同的字段类型。VARCHAR(n)：最大长度为 n 的可变长度字符串。INTERVAL：用于计算两个日期之间的时间间隔。TIMESTAMP：存储日期、小时、分钟等信息。CHAR(n)：固定长度为 n 的字符串。SM

overfit同步小助手 2024-02-15 18:03:37 0 收藏

Kafka下载（kafka和jdk、zookeeper、SpringBoot的版本对应关系）

overfit同步小助手 2024-02-15 18:03:14 0 收藏

大数据平台环境搭建---- Zookeeper组件配置

ZooKeeper 是一个分布式的，开放源码的分布式应用程序协调服务，它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。在分布式应用中，由于工程师不能很好地使用锁机制，以及基于消息的协调机制不适合在某些应用中使用，因此需要有一种可靠的、可扩展的、分布式的、可配置的

overfit同步小助手 2024-02-15 17:03:44 0 收藏

（一）PySpark3：安装教程及RDD编程（非常详细）

Apache Spark是一个用于大数据处理的开源分布式计算框架，而PySpark则是Spark的Python 实现。PySpark允许使用Python编程语言来利用Spark的强大功能，使得开发人员能够利用Python的易用性和灵活性进行大规模数据处理和分析。1、语言选择：PySpark：使用简

overfit同步小助手 2024-02-15 17:03:41 0 收藏

Spark SQL自定义collect_list分组排序

2.使用struct和sort_array(array,asc?想要在spark sql中对group by + concat_ws()的字段进行排序，可以参考如下方法。这种方式在大数据量下性能会比较慢，所以尝试下面的操作。因为使用开窗函数本身会使用比较多的资源，

overfit同步小助手 2024-02-15 17:03:31 0 收藏

Hive 排名函数ROW_NUMBER、RANK()、DENSE_RANK等功能介绍、对比和举例

例如，如果有 10 名学生，当前学生是按成绩排序后的第 3 名，那么前三名（包括当前学生）的学生数占总学生数的比例即为当前学生的累计分布百分比。如果两个学生的分数相同，他们将共享排名，例如都是排名1，下一个学生的排名将是3（假设只有两个学生分数相同）。说明：使用与 RANK() 相同的数据，DENS

overfit同步小助手 2024-02-15 15:03:51 0 收藏

Flink系列之：Apache Kafka SQL 连接器

例如在 SQL client JAR 中，Kafka client 依赖被重置在了 org.apache.flink.kafka.shaded.org.apache.kafka 路径下，因此 plain 登录模块的类路径应写为 org.apache.flink.kafka.shaded.org.a

overfit同步小助手 2024-02-15 15:03:48 0 收藏

Kafka篇——Kafka集群Controller、Rebalance和HW的详细介绍，保姆级教程！

一、概念在Kafka中，Controller是Kafka集群中的一个角色，负责管理集群的元数据、分区分配、副本管理等功能。Controller的主要职责包括：1. 元数据管理：Controller负责维护Kafka集群的元数据，包括broker的存活状态、分区的分配情况、副本的分配情况等。它通过与Z

overfit同步小助手 2024-02-15 15:03:41 0 收藏

Spring Cloud使用ZooKeeper作为注册中心的示例

【代码】Spring Cloud使用ZooKeeper作为注册中心的示例。

overfit同步小助手 2024-02-15 14:03:52 0 收藏

认识kafka

kafka是一种高吞吐量的分布式发布订阅消息消息队列，有如下特性：可扩展性：Kafka可以处理大规模的数据流，并支持高并发的生产和消费操作。它可以水平扩展以适应负载的增长。持久性：Kafka将消息持久化到磁盘，允许消息在发布和消费之间进行持久存储。这使得消费者能够根据自己的节奏处理数据，并且不会因为

overfit同步小助手 2024-02-15 14:03:45 0 收藏

kafka入门用这一篇就够了!

kafka是一款分布式、支持分区的、多副本，基于zookeeper协调的分布式消息系统。最大的特性就是可以实时处理大量数据来满足需求。

overfit同步小助手 2024-02-15 13:03:58 0 收藏

Flink从入门到实践（二）：Flink DataStream API

/ num>@Override@Override// 最终执行的方法，输出到终端});

overfit同步小助手 2024-02-15 13:03:40 0 收藏

【Flink Sink 流数据批量写入数据库】

flink 通过开窗window缓存周期数据构成批，然后下发到sink算子批量写入数据库性能优化

overfit同步小助手 2024-02-15 12:03:41 0 收藏

8 分钟看完这 7000+ 字，Flink 时间窗口和时间语义这对好朋友你一定搞得懂！外送窗口计算和水印一并搞懂！！！

场景1：电商场景中计算每种商品每1min的累计销售额。场景2：我们在观看直播时，直播间的右上角会展示最近1min的在线人数，并且每隔1min会更新一次。场景3：一件商品被推荐给我们时，展示着这个商品累计的销量，并且销量还会不断地更新（假设10s更新一次）。当我们仔细分析这3个场景中计算的实时指标时，

overfit同步小助手 2024-02-15 12:03:30 0 收藏

菜鸡学习zookeeper源码（三）NIOServer的启动

上一篇写到了QuorumPeer的start方法，里面主要进行执行了loadDataBase方法（进行加载本地的数据信息，具体是怎么进行加载的，没在文章中进行说明，这块小园子也没看，等分析完整体的启动流程之后在进行分析)，这篇文章的话主要写startServerCnxnFactory方法，在上一篇

overfit同步小助手 2024-02-15 11:03:28 0 收藏

RabbitMQ：分布式系统中的高效消息队列

RabbitMQ是一款开源、高度可靠、灵活性强的消息队列系统，被广泛应用于分布式系统中。本文将深入介绍RabbitMQ的背景、核心概念、基本工作原理，并通过实际使用场景来展示如何在应用中集成和使用RabbitMQ，旨在帮助读者更深入地理解RabbitMQ的特点以及如何充分发挥其在分布式系统中的作用。

overfit同步小助手 2024-02-15 10:03:42 0 收藏