大数据 - overfit.cn

利用 pt-archiver 实现数据库归档功能

利用 pt-archiver 实现数据库归档功能。

overfit同步小助手 2024-02-21 22:03:48 0 收藏

数据仓库与Tableau的集成与优化

1.背景介绍数据仓库与Tableau的集成与优化1. 背景介绍数据仓库和Tableau是现代数据分析领域中两个核心概念。数据仓库是一种用于存储和管理大量数据的系统，而Tableau是一种数据可视化和分析工具。在现代企业中，数据仓库和Tableau之间的集成和优化已经成为关键的技术要求。本文将深入探讨

overfit同步小助手 2024-02-21 22:03:38 0 收藏

FlinkProtobuf源与接收器

1.背景介绍1. 背景介绍Apache Flink是一个流处理框架，用于处理大规模数据流。Flink可以处理实时数据流和批处理数据，并提供了一种高效、可扩展的方法来处理数据。Flink的核心组件是数据流图(DataStream Graph)，它由数据源(Source)、数据接收器(Sink)和数据流

overfit同步小助手 2024-02-21 22:03:19 0 收藏

FlinkSQL对接MySQL CDC写入数据到Hive

对使用flink将mysql数据变化数据实时写入Hive的过程进行记录。包括mysql开启binlog，使用flinkcdc实时同步到kafka，并再使用flink将数据kafka中的数据流式写入Hive

overfit同步小助手 2024-02-21 21:04:02 0 收藏

HiveSQL——用户行为路径分析

overfit同步小助手 2024-02-21 21:03:56 0 收藏

Hive之set参数大全-15

在 Hive 中，是一个参数，用于配置是否允许 Tez 会话使用自定义队列。该参数影响在 HiveServer2 中执行的 Tez 会话是否可以选择使用自定义的队列。以下是设置其中，是布尔值，用于启用或禁用 Tez 会话使用自定义队列。请注意，这样的设置只对当前 HiveServer2 会话有效，当

overfit同步小助手 2024-02-21 21:03:49 0 收藏

阿里技术官亲笔：Kafka限量笔记，一本书掌握Kafka的精髓

我们常常仰望那些大厂的大神们，但要知道，他们也不过是平凡的人，只是比菜鸟程序员多付出了几分心思。如果你不努力，差距只会越拉越大。作为程序员，充实自己的知识和技能是至关重要的。在我看来，付出的努力和回报是成正比的。学习Kafka并不难，这份Kafka限量笔记的内容将会对你的学习大有裨益。如果你想要这份

overfit同步小助手 2024-02-21 20:03:51 0 收藏

Apache Spark架构与特点

1.背景介绍Apache Spark是一个开源的大数据处理框架，由AMLLabs公司开发，后被Apache软件基金会所支持。它可以处理批量数据和流式数据，并提供了一个易用的编程模型，使得开发人员可以使用Scala、Java、Python等编程语言来编写程序。Spark的核心组件是Spark Stre

overfit同步小助手 2024-02-21 19:03:55 0 收藏

ClickHouse与ApacheHadoop集成

1.背景介绍1. 背景介绍ClickHouse 是一个高性能的列式数据库，主要用于日志分析、实时统计和数据存储。Apache Hadoop 是一个分布式存储和分析框架，主要用于大规模数据处理和分析。在现代数据科学和大数据处理领域，这两个技术在很多场景下都有着重要的地位。因此，了解如何将 ClickH

overfit同步小助手 2024-02-21 19:03:52 0 收藏

Python进阶知识：整理1 -＞ pySpark入门

Python进阶知识：整理1 -> pySpark入门: 1 编写执行入口；2 数据输入；3 数据计算；4 数据输出

overfit同步小助手 2024-02-21 19:03:42 0 收藏

RabbitMQ的延迟队列实现[死信队列](笔记一)

rabbitMQ延迟队列使用死信队列方式实现服务端配置

overfit同步小助手 2024-02-21 18:03:14 0 收藏

Zookeeper与Apollo的对比分析

1.背景介绍1. 背景介绍Apache Zookeeper 和 Alibaba Apollo 都是分布式系统中常用的配置管理和协调服务。Zookeeper 是一个开源的分布式协调服务，用于构建分布式应用程序的基础设施。Apollo 是 Alibaba 公司开发的一款分布式配置中心，用于管理、分发和更

overfit同步小助手 2024-02-21 17:03:49 0 收藏

hive 3.1.3 on spark 3.0.0 安装教程 (内附重新编译好的jar包)

一步一步教会你如何部署 hive 3.1.3 on spark 3.0.0，文章还提供了修改好的源码包~

overfit同步小助手 2024-02-21 15:03:47 0 收藏

RabbitMQ

overfit同步小助手 2024-02-21 15:03:41 0 收藏

Hive3.1.3基础

1）Hive简介Hive是由Facebook开源，基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。那为什么会有Hive呢？它是为了解决什么问题而诞生的呢？下面通过一个案例，来快速了解一下Hive。例如：需求，统计单词出现个数。（1）在Hadoop中用M

overfit同步小助手 2024-02-21 15:03:18 0 收藏

大数据平台环境搭建---- Spark组件配置

Spark使用Scala语言进行实现，它是一种面向对象、函数式编程语言，能够像操作本地集合对象一样轻松地操作分布式数据集。参考文献：https://www.cnblogs.com/xupccc/p/9800380.html。复制Spark配置模板：cp spark-env.sh.template s

overfit同步小助手 2024-02-21 14:03:55 0 收藏

软考笔记--数据仓库技术

为了更好地管理非结构化数据，数据仓库采用了元数据，元数据可用于记录数据的文件标识符，进入数据仓库的日期，文件描述，文件来源等信息。企业仓库面向企业级应用，它搜集了企业的各个主题的所有信息，提供企业范围的数据集成，数据通常来自多个操作型数据库和外部信息提供者，并且是快多个功能范围的。数据集市面向企业部

overfit同步小助手 2024-02-21 13:03:51 0 收藏

FlinkCDC同步ORACLE至Apache Doris

Apache Doris（以前称为Palo）是一个开源的大数据分析数据库项目，是由百度公司发起的一个分布式 SQL 数据仓库。它的设计目标是支持低延迟、高吞吐量的交互式 SQL 查询，可以用于实时报表、在线分析处理等场景。Apache Doris 提供了分布式的、可伸缩的架构，支持高并发的大规模数据

overfit同步小助手 2024-02-21 13:03:22 0 收藏

Flink面试知识点：JobManager 和 Task

好迷茫，三本软件工程大三了，才刚学了Spring框架而且还没像样的项目，之前学校还学了python和安卓（很基础），以这个学习进度，下学期想找份像样的实习入行，俺也来试试牛爱网98男，身高173，体重65，河南人在上海读研，已签约上海某大厂，长相帅的一批。收到了快手offer，但开的不满意，想签一个

overfit同步小助手 2024-02-21 12:03:34 0 收藏

SpringCloud--Eureka注册中心服务搭建注册以及服务发现

注意springboot以及springcloud版本，可能有莫名其妙的错误，这里使用的是springboot-2.6.13，springcloud-2021.0.5。

overfit同步小助手 2024-02-21 12:03:23 0 收藏