大数据 - overfit.cn

数据仓库之实时数仓

实时数据仓库（Real-time Data Warehouse, RTDW）是一种能够实时处理和分析数据的系统，旨在满足对低延迟数据处理和分析的需求。与传统的批处理数据仓库不同，实时数据仓库能够持续地接收、处理和存储数据，使用户能够快速获得最新的信息和洞察力。

overfit同步小助手 2024-08-06 12:03:40 0 收藏

RabbitMQ消息的发布确认机制详解

RabbitMQ发布确认机制确保消息从生产者成功传输到交换机和队列，提高系统可靠性。在Spring Boot项目中，通过配置`publisher-confirm-type`和`publisher-returns`，启用发布确认和消息返回机制。配置`RabbitTemplate`的确认回调和返回回调，

overfit同步小助手 2024-08-06 12:03:37 0 收藏

Hive表使用ORC格式和SNAPPY压缩建表语句示例

在选择压缩算法时，一般可以考虑以下几个因素： 1. 压缩比：不同的压缩算法具有不同的压缩比，一般来说，压缩比越高，存储空间占用越小，但可能会影响查询性能。 2. 压缩速度：有些压缩算法压缩速度较快，适合对数据进行频繁压缩，而有些压缩算法压缩速度较慢，但压缩比较高。 3. 解压速度：压缩算法解压速度也

overfit同步小助手 2024-08-06 11:03:49 0 收藏

Kafka详细教程（一）

官网：「http://kafka.apache.org/」 kafka 是最初由 linkedin 公司开发的，使用 scala 语言编写， kafka 是一个分布式，分区的，多副本的，多订阅者的日志系统（分布式MQ 系统），可以用于搜索日志，监控日志，访问日志等 Kafka is

overfit同步小助手 2024-08-06 11:03:40 0 收藏

Flink-StarRocks详解:第六部分-即席查询大案例解析(第56天)

本文为Flink-StarRocks详解后续章节：主要详解StarRocks数仓场景：即席查询大案例

overfit同步小助手 2024-08-06 11:03:12 0 收藏

一篇文章教你如何搭建scala和spark（超详细）

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Clo

overfit同步小助手 2024-08-06 10:03:32 0 收藏

spark on k8s两种方式的原理与对比

Spark on k8s Operator 更适合大规模、需要自动化和集中管理的场景。它利用 Kubernetes 的原生功能，实现自动化管理和配置集中化，虽然增加了一些复杂性，但在动态和多租户环境中表现出色。Spark on k8s 适合简单、直接的 Spark 作业提交和管理场景，特别是对于那些

overfit同步小助手 2024-08-06 10:03:27 0 收藏

分布式服务框架zookeeper+消息队列kafka

在zookeeper集群中，有各自的角色，分为领导者Leader，学习者learner(跟随者Follower，观察者Observer)领导者主要工作：事务请求的唯一调度和处理者，保证集群事务处理的顺序性；集群内部个服务器的调度者。跟随者：处理客户端非事务请求，转发事务请求给leader服务器；参与

overfit同步小助手 2024-08-06 07:03:53 0 收藏

在 PostgreSQL 中如何实现数据仓库级别的聚合计算？

PostgreSQL 内置了多种聚合函数，如SUM()（求和）、AVG()（平均值）、COUNT()（计数）、MIN()（最小值）和MAX()（最大值）等。这些函数可以应用于一个列或表达式，以计算该列或表达式在一组行中的聚合结果。下面是一个简单的示例，展示如何使用COUNT()在上述示例中，COUN

overfit同步小助手 2024-08-06 05:03:42 0 收藏

Hadoop3.1.3完全分布式平台搭建

Hadoop3.1.3完全分布式搭建教程

overfit同步小助手 2024-08-06 05:03:23 0 收藏

毕设成品大数据电商用户行为分析及可视化(源码+论文)

今天学长向大家介绍一个机器视觉的毕设项目，大数据电商用户行为分析及可视化(源码+论文)毕业设计基于大数据淘宝用户行为分析。

overfit同步小助手 2024-08-06 04:03:36 0 收藏

【python】-pyspark应用

Spark。Spark是一个强大的工具，适用于大数据处理和分析，无论是学术研究还是工业应用，都能找到其用武之地。

overfit同步小助手 2024-08-06 04:03:32 0 收藏

基于Spark的电商推荐系统（高分毕设）

今天分享的是一套基于SSM技术+spark技术的电影推荐系统包含了爬虫、电影网站（前端和后端）、后台管理系统以及推荐系统（Spark）。

overfit同步小助手 2024-08-06 04:03:28 0 收藏

Spark转化算子

这个操作是非常昂贵的，最好用aggregateByKey 和reduceByKey代替。就是在shuffle前先进行计算，这样可以减少shuffle的数据。map和mapPartitions及mapPartitionsWithIndex区别。

overfit同步小助手 2024-08-06 03:03:48 0 收藏

Flink学习（八）-Flink 集群搭建

装好 jdk 等必要的组件。注意，由于本身没有额外的 dns做转发。因此，需要在每台机器的 host 文件里，配置好相关 ip具体方法。

overfit同步小助手 2024-08-06 02:03:58 0 收藏

Spark核心知识要点（三）

overfit同步小助手 2024-08-06 02:03:53 0 收藏

Kubernetes kafka系列 | Strimzi 快速部署kafka集群（可外部通信）

Strimzi 是一个用于 Apache Kafka 在 Kubernetes 上部署和管理的开源项目。它提供了一组 Kubernetes 自定义资源定义（Custom Resource Definitions，CRDs）、控制器和操作符，使得在 Kubernetes 环境中轻松地部署、管理和操作

overfit同步小助手 2024-08-06 02:03:50 0 收藏

Scala和Spark的介绍

Spark最初由美国加州伯克利大学( UC Berkelcy)的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。

overfit同步小助手 2024-08-06 02:03:44 0 收藏

基于SpringBoot+Vue+大数据的疾病数据统计分析系统设计和实现(源码+lw+部署+讲解)

🌞博主介绍：✌CSDN特邀作者、全栈领域优质创作者、10年IT从业经验、码云/掘金/知乎/B站/华为云/阿里云等平台优质作者、专注于Java、小程序/APP、python、大数据等技术领域和毕业项目实战，以及程序定制化开发、文档编写、答疑辅导等。✌🌞👇🏻精彩专栏推荐订阅👇🏻2023-2

overfit同步小助手 2024-08-06 02:03:39 0 收藏

Zookeeper高频面试题整理（入门到精通）

Zookeeper 翻译过来就是动物园管理员，他是用来管 Hadoop (大象) 、Hive(蜜蜂)、Pig（小猪)的管理员，简称zk。Zookeeper是 Apache Hadoop项目下的一个子项目，是一个开源的分布式协调服务。配置管理命名服务分布式同步分布式锁集群管理。ZAB协议是一种原子广播

overfit同步小助手 2024-08-06 01:03:40 0 收藏