大数据 - overfit.cn

【Flink SQL API体验数据湖格式之paimon】

随着大数据技术的普及，数据仓库的部署方式也在发生着改变，之前在部署数据仓库项目时，首先想到的是选择国外哪家公司的产品，比如：数据存储会从Oracle、SqlServer中或者Mysql中选择，ETL工具会从Informatica、DataStage或者Kettle中选择，BI报表工具会从IBM co

overfit同步小助手 2024-01-07 17:03:09 0 收藏

spark rpc（网络通信）

TransportContext：传输上下文，包含了用于创建传输服务端（TransportServer）和传输客户端工厂（TransportClientFactory）的上下文信息，并支持使用Transport-ChannelHandler设置Netty提供的SocketChannel的Pipeli

overfit同步小助手 2024-01-07 15:03:49 0 收藏

Hadoop入门概述

Hadoop是什么Hadoop是一个基于Java编写的开源软件库，用于在商用硬件集群上分布式处理和存储海量数据。它提供了一个高容错性、可扩展性和高效的数据处理环境。Hadoop的发展历史由Doug Cutting和Mike Cafarella于2005年开发，灵感来源于Google发表的大规模数据处

overfit同步小助手 2024-01-07 15:03:44 0 收藏

数据仓库【3】：建模方法

宽表模型是维度模型的衍生，适合join性能不佳的数据仓库产品宽表模型将维度冗余到事实表中，形成宽表，以此减少join操作。

overfit同步小助手 2024-01-07 15:03:27 0 收藏

RabbitMQ避免重复消费

幂等性是指无论操作执行多少次，都是得到相同的结果，而不会产生其他副作用。在rabbitMQ中同一条消息在MQ中被消费多次。

overfit同步小助手 2024-01-07 14:03:46 0 收藏

大数据概述

大数据与大数据技术简介

overfit同步小助手 2024-01-07 13:03:23 0 收藏

Kafka

一、简介Kafka是最初由Linkedin公司开发，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目，也是一个开源【分布式流处理平台】，由Scala和Java编写，（也当做MQ系统，但不是纯粹的消息系统），一种高吞吐量的分布式流处理平台，它可以处理消费者在网站中的所有动作流数

overfit同步小助手 2024-01-07 12:03:24 0 收藏

RabbitMQ 和 Kafka 对比

开源社区有好多优秀的队列中间件，比如RabbitMQ和Kafka，每个队列都貌似有其特性，在进行工程选择时，往往眼花缭乱，不知所措。对于RabbitMQ和Kafka，到底应该选哪个？

overfit同步小助手 2024-01-07 10:03:49 0 收藏

大数据——Superset安装篇（二）Python3.8环境+MySQL元数据库

这里的base.txt文件为 apache-superset==2.0.0版本所需python环境依赖。请确保 /opt/software/base.txt 存在。脚本完成 conda包管理器的安装。

overfit同步小助手 2024-01-07 08:03:50 0 收藏

Zookeeper集群 + Kafka集群的详解与部署（以及Filebeat+Kafka+ELK ）

Zookeeper是一个分布式的开源协调服务，用于管理和维护大型分布式系统中的配置信息、命名服务、状态同步等。它提供了一个可靠的分布式环境，用于协调多个节点之间的通信和管理。Kafka 是一个开源的分布式流处理平台和消息队列系统，最初由 LinkedIn 开发并于2010年成为 Apache 软件基

overfit同步小助手 2024-01-07 08:03:29 0 收藏

大数据与云计算——部署Hadoop集群并运行MapReduce集群案例(超级详细！)

这篇博客文章详细介绍了如何部署Hadoop集群并运行MapReduce任务。首先，我们将详细解释Hadoop和MapReduce的基本概念，以及它们在大数据处理中的重要性。然后，我们将逐步指导读者如何在多节点环境中部署Hadoop集群，包括硬件和软件的配置，以及如何解决可能遇到的问题。接下来，我们将

overfit同步小助手 2024-01-07 07:03:48 0 收藏

kafka学习笔记--Topic 数据的存储机制

Topic是逻辑上的概念，而partition是物理上的概念，本来每个partition应对应于一个log文件，该log文件中存储的就是Producer生产的数据。Producer生产的数据会被不断追加到该log文件末端，为防止log文件过大导致数据定位效率低下，Kafka采取了分片和索引机制，将每

overfit同步小助手 2024-01-07 07:03:41 0 收藏

【大数据入门核心技术-Doris】（三）Doris基本Shell和数据模型

参考。在某些多维分析场景下，用户更关注的是如何保证 Key 的唯一性，即如何获得 Primary Key 唯一性约束。因此，我们引入了 Unique 数据模型。在1.2版本之前，该模型本质上是聚合模型的一个特例，也是一种简化的表结构表示方式。由于聚合模型的实现方式是读时合并（merge on rea

overfit同步小助手 2024-01-07 05:03:14 0 收藏

【Flink-Kafka-To-ClickHouse】使用 Flink 实现 Kafka 数据写入 ClickHouse

需求描述：1、数据从 Kafka 写入 ClickHouse。2、相关配置存放于 Mysql 中，通过 Mysql 进行动态读取。3、此案例中的 Kafka 是进行了 Kerberos 安全认证的，如果不需要自行修改。4、先在 ClickHouse 中创建表然后动态获取 ClickHouse 的表结

overfit同步小助手 2024-01-07 03:03:50 0 收藏

Spark（复习）

cp /usr/tmp/tool /opt //将/usr/tmp目录下的tool目录复制到 /opt目录下面。mv /usr/tmp/tool /opt //将/usr/tmp目录下的tool目录剪切到 /opt目录下面。mv /tmp/a.txt aaa.txt //

overfit同步小助手 2024-01-07 03:03:44 0 收藏

Hadoop全分布式搭建

ctrl+alt切换定位到物理机/虚拟机可以用物理机截图# 检查内存 free -h# 检查磁盘空间 df -h# 检查 Java 版本 java -version需要传输jdk文件，就需要共享文件夹：挂载操作，然后，查看（注意：挂载后必须要再次进入/mnt/hgfs才能查看到共享的文件夹）验证安

overfit同步小助手 2024-01-07 02:03:41 0 收藏

SpringBoot基于大数据的智能家居销量数据分析系统（附源码）

随着智能家居销量的不断增加，如何对这些数据进行有效的分析和利用也成为了当前亟待解决的问题。因此，本文提出了一种基于大数据的智能家居销量数据分析系统的设计与实现。该系统主要分为前台和后台两个部分，用户可以通过前台进行注册登录、查看冰箱信息、获取智能家居资讯等操作，管理员则可以通过后台进行用户管理、家电

overfit同步小助手 2024-01-06 22:03:46 0 收藏

RabbitMQ Streams 详解

overfit同步小助手 2024-01-06 21:03:50 0 收藏

RabbitMQ登录后显示内部服务器500

rabbitMQ安装过程中遇到控制台乱码，服务器500的错误

overfit同步小助手 2024-01-06 20:03:48 0 收藏

hive简介和安装

hive是基于hadoop的数据仓库工具。hive提供了一种使用sql语句来读、写、管理基于分布式系统的大型数据的功能。将hdfs上的结构化数据文件映射为一张表，并提供类似sql语句进行查询统计功能。本质就是将sql语句转化为模板化了的MapReduce程序，处理计算还是hdfs中的mapreduc

overfit同步小助手 2024-01-06 20:03:41 0 收藏