大数据 - overfit.cn

记录「 Hbase的数据迁移与bulkload流程与实践」

hbase数据迁移，DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。我们知道MR程序适合用来处理大批量数据，其拷贝本质过程是启动

overfit同步小助手 2024-01-02 08:03:21 0 收藏

Spark大数据分析与实战笔记（第二章 Spark基础-01）

Spark在2013年加入Apache孵化器项目，之后获得迅猛的发展，并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎，它是基于内存计算的大数据并行计算框架，适用于各种各样的分布式平台的系统。在Spark生态圈中包含了Sp

overfit同步小助手 2024-01-02 08:03:13 0 收藏

浅谈Kafka-Broker的Replication与Controller

Kafka是有主题概念的，而每个主题又进一步划分成若干个分区。副本的概念实际上是在。

overfit同步小助手 2024-01-02 07:03:30 0 收藏

Flink系列之：Elasticsearch SQL 连接器

Elasticsearch 将文档存储在 JSON 字符串中。因此数据类型映射介于 Flink 数据类型和 JSON 数据类型之间。Flink 为 Elasticsearch 连接器使用内置的 ‘json’ 格式。下表列出了 Flink 中的数据类型与 JSON 中的数据类型的映射关系。

overfit同步小助手 2024-01-02 06:03:43 0 收藏

Flink SQL: 高效解析 Kafka 数据并存储为 Parquet 至 HDFS

Flink SQL应用程序的结构是通过定义一系列任务来执行实时数据处理，这些任务创建必要的表和视图，处理数据，然后将结果插入指定的接收器。这项工作利用 Flink 的流处理能力以及 SQL 和 UDF 来转换和管理数据流

overfit同步小助手 2024-01-02 06:03:26 0 收藏

Hadoop作业篇(一）

1. 以下哪一项不属于Hadoop可以运行的模式__C____。A. 单机（本地）模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位___B___。A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hoppe

overfit同步小助手 2024-01-02 05:03:22 0 收藏

浅谈数据仓库运营

根据表引用次数进行排名，重点关注引用次数高的和次数低的，次数高的定期优化，确保任务执行失败，次数低的考虑数据架构是否合理，如果存在次数为0的说明未使用(很多业务调整但是表还没有拿掉，会存在很多僵尸表)。：检查数据库表是否存在循环写入(A->B,B->C,C->A)，很多公司不存在数据架构师，往往为了

overfit同步小助手 2024-01-01 23:03:37 0 收藏

RabbitMQ在Linux上从0到1搭建

RabbitMq在Linux上由0到1 搭建及应用

overfit同步小助手 2024-01-01 23:03:30 0 收藏

牛客项目（五）-使用kafka实现发送系统通知

定义一个事件实体以方便在消息的发送与处理。在特定的地方触发消息产生。

overfit同步小助手 2024-01-01 22:03:49 0 收藏

Spark Standalone 模式的安装和部署第1关： Standalone 分布式集群搭建

overfit同步小助手 2024-01-01 22:03:43 0 收藏

【大数据】Hadoop运行模式（集群搭建）

Hadoop 运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

overfit同步小助手 2024-01-01 22:03:38 0 收藏

Flink实时电商数仓之Doris框架（七）

大规模并行处理的分析型数据库产品。使用场景：一般先将原始数据经过清洗过滤转换后，再导入doris中使用。

overfit同步小助手 2024-01-01 21:03:49 0 收藏

什么是RabbitMQ

交换机是消息的分发中心，负责接收从生产者发送的消息，并将其路由到一个或多个与之绑定的队列。RabbitMQ支持不同类型的交换机，其中最常用的类型之一是扇出交换机（Fanout Exchange），它会将消息广播到与之绑定的所有队列，无视消息的路由键。在RabbitMQ中，消息代理指的就是Rabbit

overfit同步小助手 2024-01-01 19:03:44 0 收藏

RabbitMQ插件详解：rabbitmq_web_stomp【RabbitMQ 六】

本文着重介绍RabbitMQ中的rabbitmq_web_stomp插件，通过讲解STOMP协议和WebSocket的基础知识，深入挖掘这一插件的应用场景和使用方法。通过详细的示例和实际场景的演示，你将了解如何在分布式系统中通过Web STOMP实现高效、实时的消息传递。无论你是消息中间件的新手还是

overfit同步小助手 2024-01-01 18:03:46 0 收藏

Flink CDC和Flink SQL构建实时数仓Flink写入Doris

overfit同步小助手 2024-01-01 18:03:17 0 收藏

大数据深度学习Pytorch 最全入门介绍，Pytorch入门看这一篇就够了

本文通过详细且实践性的方式介绍了 PyTorch 的使用，包括环境安装、基础知识、张量操作、自动求导机制、神经网络创建、数据处理、模型训练、测试以及模型的保存和加载。这篇文章通过详细且实践性的方式介绍了 PyTorch 的使用，包括环境安装、基础知识、张量操作、自动求导机制、神经网络创建、数据处理、

overfit同步小助手 2024-01-01 15:03:38 0 收藏

kettle—参数传递

下面我们总结了一下位置参数、命名参数、变量的优缺点，然后文章中介绍了变量的使用的两种方式通过设置变量组件设置然后获取使用通过转换获取设置变量然后获取使用位置参数（argument）命名参数（parameter）变量（variable）说明根据参数的位置来设置和读取参数值，用于在KJB外部传入，并在K

overfit同步小助手 2024-01-01 14:03:47 0 收藏

Flink CDC 1.0至3.0回忆录

overfit同步小助手 2024-01-01 14:03:30 0 收藏

Kafka 架构深度解析：生产者（Producer）和消费者（Consumer）

Kafka 默认提供了一些基本的序列化和反序列化器，但你也可以根据需求自定义实现。这在处理复杂数据结构时非常有用。// 示例代码：自定义序列化器@Override// 实现自定义序列化逻辑Apache Kafka 架构中的生产者和消费者是构建实时数据流系统的关键组件，本文深入剖析了它们的工作原理、核

overfit同步小助手 2024-01-01 13:03:44 0 收藏

【头歌实训】PySpark Streaming 入门

第1关：SparkStreaming 基础与套接字流第2关：文件流第3关：RDDSpark Streaming 为 Spark 提供了可拓展、高吞吐、容错的流计算能力。Spark Streaming 可整合多种输入数据源，如 Kafka、Flume、HDFS，甚至是普通的 TCP 套接字。经处理后的

overfit同步小助手 2024-01-01 12:03:41 0 收藏