大数据 - overfit.cn

Linux虚拟机环境搭建spark

大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

overfit同步小助手 2024-06-18 07:03:50 0 收藏

RabbitMQ简介

MQ的概览情况，里面包括集群各个节点的信息、端口映射信息；Totals：准备消费的消息数、待确认的消息数、消息总数以及消息的各种处理速率（发送速率、确认速率、写入硬盘速率等等）。Nodes：其实就是支撑 RabbitMQ 运行的一些机器，相当于集群的节点。点击每个节点，可以查看节点的详细信息。C

overfit同步小助手 2024-06-18 06:03:43 0 收藏

Flink 通过 paimon 关联维表，内存降为原来的1/4

本文介绍了如何通过替换维表实现FlinkSQL任务内存占用的优化。作者通过分析Iceberg lookup部分源码，发现其cache的数据会存在内存中，导致内存占用过大。作者将维表替换为paimon，通过分析paimon维表的原理，发现其cache的数据存储在rocksdb中，从而实现了内存占用的降

overfit同步小助手 2024-06-18 05:03:47 0 收藏

RabbitMQ-同步和异步区别&快速入门

Exchange（交换机）只负责转发消息，不具备存储消息的能力，因此如果没有任何队列与Exchange绑定，或者没有符合路由规则的队列，那么消息会丢失！在Direct模型下，队列与交换机的绑定，不能是任意绑定了，而是要指定一个RoutingKey（路由key）.消息的发送方在向Exchange发送消

overfit同步小助手 2024-06-18 05:03:32 0 收藏

数据仓库及应用（hive基础）

Database：数据库，在HDFS中为hive.metastore.warehouse.dir目录下的一个文件夹。Tables：表，表由列构成，在表上可以进行过滤、映射、连接和联合操作，在HDFS中为数据库目录下的子目录。Hive表分为内部表和外部表：内部表类似于RDBMS中的表，由Hive管理

overfit同步小助手 2024-06-18 04:03:49 0 收藏

技术与业务的完美融合：大数据BI如何真正提升业务价值

数据分析有一点经典案例,沃尔玛的啤酒和尿布案例,没有人验证过这个故事的真实性，但是它是有启发性的

overfit同步小助手 2024-06-18 04:03:32 0 收藏

Hive单机版安装部署

在根目录下建立software文件夹：mkdir software。进入/software/hadoop/etc/hadoop文件夹。保存退出，使文件生效：source /etc/profile。保存退出，生效：source /etc/profile。进入配置文件夹：/software/hive/c

overfit同步小助手 2024-06-18 02:03:46 0 收藏

【Python数据分析】PySpark的使用

Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎简单来说，Spark是一款分布式的计算框架，用于调度成百上千的服务器集群，计算TB、PB乃至EB级别的海量数据。

overfit同步小助手 2024-06-18 01:03:46 0 收藏

著名开源软件Greenplum突然关闭GitHub源码，数据仓库选型带来新变数

但是公司一直颠沛流离，从2005年创建，2010年被EMC收购（估值3亿美金），2012年纳入到Pivotal Software品牌，2015年对外开源，2020年Pivotal被VMWare收购，2023年VMWare又被博通收购。Greenplum是基于PostgreSQL开发的MPP数据仓库，

overfit同步小助手 2024-06-18 00:03:33 0 收藏

spark的搭建

Spark是一个开源的大数据处理框架，它提供了一个快速、通用和易于使用的计算引擎。Spark最初由美国加州伯克利大学AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。具体来说，Spark的优势包括：速度快：Spark能够快速进行数据读取、处

overfit同步小助手 2024-06-17 23:03:47 0 收藏

【kafka专栏】消费者组数据积压的查看与处理方法

什么是ActiveMQ?ActiveMQ服务器宕机怎么办？丢消息怎么办？持久化消息非常慢怎么办？消息的不均匀消费怎么办？死信队列怎么办？ActiveMQ中的消息重发时间间隔和重发次数吗？

overfit同步小助手 2024-06-17 22:03:37 0 收藏

Flink 数据目录体系：深入理解 Catalog、Database 及 Table 概念

综上所述，Catalog、Database 和 Table 构成了 Flink 数据管理的基础架构，它们共同提供了对分布式数据源的抽象和统一访问接口，使得用户能够在一个统一的视角下对各类数据源进行透明化管理和高效处理。Apache Flink 在其数据处理框架中引入了 Catalog、Databas

overfit同步小助手 2024-06-17 21:03:50 0 收藏

Hive基础知识（九）：Hive对数据库表的增删改查操作

在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，，有时也被称为内部表。（2）EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时可以指定一个指向实际数据的路径（LOCATION），在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据

overfit同步小助手 2024-06-17 20:03:51 0 收藏

Windows下安装Spark（亲测成功安装）_windows spark，真香

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎 [2]。现在形成一个高速发展应用广泛的生态系统。

overfit同步小助手 2024-06-17 19:03:42 0 收藏

数据仓库的概念和作用？如何搭建数据仓库？

数据仓库是一个专门用于集成、存储和管理企业各类数据的系统。它将来自多个源头的数据整合到一个集中的位置，以提供一致性、可靠性的数据供各种分析和报告使用。数据仓库通常包括历史数据，允许企业对过去、现在和未来的数据进行深入的分析。数据仓库的设计追求高度的可查询性和性能，通常采用星型或雪花型的数据模型，通过

overfit同步小助手 2024-06-17 17:03:40 0 收藏

Docker部署常见应用之大数据基础框架Hadoop

文章介绍了如何使用Docker Compose 部署Hadoop 集群。 Hadoop是一个开源框架，由Apache软件基金会开发，用于在普通硬件构建的集群中存储和处理大量数据。它最初由Doug Cutting和Mike Cafarella创建，并受Google的MapReduce和Google F

overfit同步小助手 2024-06-17 16:03:42 0 收藏

用户实践：从 HBase 升级为OceanBase，仟传实现110000 TPS的千亿级KV性能优化

本文将分享仟传 KV 方案从 HBase 升级为基于 OceanBase 的 OBKV 实践经验

overfit同步小助手 2024-06-17 14:03:49 0 收藏

Zookeeper和Nacos的区别

ZooKeeper 是一个开源的分布式协调服务。它是一个为分布式应用提供一致性服务的软件，分布式应用程序可以基于 Zookeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。文件系统通知机制Zookeeper 的核心是原

overfit同步小助手 2024-06-17 13:03:47 0 收藏

大数据知识点之大数据5V特征

大规模的数据量，在处理的时候，对技术体系是有较高的要求的。对于一个企业来说，每天都会新增庞大的数据，这些数据可能来自于用户的操作、可能来自于智能家居、可能来自于各种传感器等，数据的来源非常多，而且数据量的增速也是非常可怕的。大数据相关的技术体系，需要处理的数据量是非常庞大的，动辄PB、EB规模的数据

overfit同步小助手 2024-06-17 12:03:38 0 收藏

Apache DolphinScheduler支持Flink吗？

随着大数据技术的快速发展，很多企业开始将Flink引入到生产环境中，以满足日益复杂的数据处理需求。而作为一款企业级的数据调度平台，Apache DolphinScheduler也跟上了时代步伐，推出了对Flink任务类型的支持。Flink是一个开源的分布式流处理框架，具有高吞吐量、低延迟和准确性等特

overfit同步小助手 2024-06-17 12:03:33 0 收藏