大数据 - overfit.cn

zookeeper环境搭建

严格按照步骤来做，防火墙和安全模块一定要关闭

overfit同步小助手 2024-07-16 20:03:47 0 收藏

Spark SQL 概述

架构、特点、运行原理、API 相关概述、依赖、数据集、基本用法

overfit同步小助手 2024-07-16 19:03:56 0 收藏

在Hive中编写和注册UDF（用户自定义函数）

overfit同步小助手 2024-07-16 19:03:42 0 收藏

Apache Kylin模型构建全解析：深入理解大数据的多维分析

在深入了解模型构建过程之前，先对Kylin的架构有一个基本的认识。Metadata：存储元数据信息。：负责构建Cube。Cube：预计算的多维数据结构。：负责集群的管理和任务调度。：查询引擎，处理查询请求。在Kylin中，数据源通常是Hive表。需要定义Hive表以及字段映射到Kylin模型中。在K

overfit同步小助手 2024-07-16 18:03:26 0 收藏

kafka用java收发消息

Kafka 是一个分布式流处理平台，它允许你发布和订阅记录流，类似于消息队列或企业消息系统。下面我将为你展示如何使用 Java 来发送（生产者）和接收（消费者）Kafka 中的消息。

overfit同步小助手 2024-07-16 17:03:25 0 收藏

常用MQ消息中间件Kafka、ZeroMQ和RabbitMQ对比及RabbitMQ详解

了解常用MQ消息中间件Kafka、ZeroMQ和RabbitMQ的基础知识，对三者特性进行对比，选取合适的MQ。着重讲解RabbitMQ详解。

overfit同步小助手 2024-07-16 15:03:49 0 收藏

[flink 实时流基础] 输出算子（Sink）

如果我们想将数据存储到我们自己的存储设备中，而Flink并没有提供可以直接使用的连接器，就只能自定义Sink进行输出了。与Source类似，Flink为我们提供了通用的SinkFunction接口和对应的RichSinkDunction抽象类，只要实现它，通过简单地调用DataStream的.add

overfit同步小助手 2024-07-16 14:03:35 0 收藏

详解flink sql， calcite logical转flink logical

overfit同步小助手 2024-07-16 14:03:29 0 收藏

深入浅出Hadoop：从零开始搭建与配置你的大数据处理平台

后续学习路径：鼓励读者进一步探索Hadoop生态系统中的其他组件，如Hive、HBase、Spark等，以及如何根据实际业务需求优化集群配置。总结：回顾Hadoop集群搭建与配置的关键步骤，强调掌握这一技能对于处理大数据挑战的价值。

overfit同步小助手 2024-07-16 13:03:55 0 收藏

Hadoop数仓中常用端口详解:(第36天)

在数仓（数据仓库）开发中，不同的组件和服务会使用不同的端口号进行通信。由于数仓的实现可能依赖于多种技术和框架（如Hadoop、Hive、HBase、Spark等），因此涉及的端口号也会有所不同。以下是一些数仓开发中常用端口号及其作用的概述，以及相关的操作指令建议。常用端口号及其作用。

overfit同步小助手 2024-07-16 13:03:33 0 收藏

Kafka 进阶指南

本指南介绍了 Kafka 的进阶主题，包括性能调优、扩展策略、数据复制、日志管理、流处理和安全性。这些高级特性和使用技巧可以帮助您更好地利用 Kafka 提高系统的性能、可扩展性和可靠性。希望这篇文章能够帮助您深入理解 Kafka，并在实际项目中应用这些知识。# Kafka 进阶指南## 引言在掌握

overfit同步小助手 2024-07-16 13:03:13 0 收藏

【openeuler/spark docker image overview】

【代码】【openeuler/spark docker image overview】

overfit同步小助手 2024-07-16 12:03:46 0 收藏

图解 Kafka 架构

Kafka 是一个可横向扩展，高可靠的实时消息中间件，常用于服务解耦、流量削峰。

overfit同步小助手 2024-07-16 12:03:35 0 收藏

Flink实战 - 搭建HA高可用集群

一、部署说明

overfit同步小助手 2024-07-16 11:03:23 0 收藏

Jupyter + Pyspark + Yarn 交互式大数据分析

jupyter+pyspark+Yarn 交互式大数据分析, pyspark交互式环境配置，spark在线交互式数据分析

overfit同步小助手 2024-07-16 10:03:46 0 收藏

（一）Kafka 安全之使用 SSL 的加密和身份验证

SSL（Secure Sockets Layer）是一种网络协议，提供了一种在客户端和服务器之间建立安全连接的方法。启用 SSL 后，Kafka 集群中的所有数据传输，包括生产者、消费者与 Broker 之间的消息交互都会被加密，确保敏感信息在网络传输过程中不被窃听或篡改。

overfit同步小助手 2024-07-16 09:03:53 0 收藏

kafka-消费者-指定offset消费（SpringBoot整合Kafka）

overfit同步小助手 2024-07-16 08:03:50 0 收藏

spark shuffle——shuffle管理

shuffle系统的入口。ShuffleManager在driver和executor中的sparkEnv中创建。在driver中注册shuffle，在executor中读取和写入数据。registerShuffle：注册shuffle，返回shuffleHandleunregisterShuffl

overfit同步小助手 2024-07-16 07:03:37 0 收藏

FlinkCDC 数据同步优化及常见问题排查

使用 Flink CDC 进行数据同步时，常见问题包括高延迟、任务重启或失败、数据丢失、数据不一致、性能瓶颈、网络问题和版本兼容性问题。通过增加并行度、优化批量大小和轮询间隔、启用 checkpoint 和保存点、优化索引、监控网络、检查版本兼容性等方法，可以有效解决这些问题，确保数据同步的高效性和

overfit同步小助手 2024-07-16 05:03:47 0 收藏

【精品方案】某咨询公司的大数据解决方案(32页PPT)，干货满满！

随着信息技术的快速发展和大数据时代的到来，企业面临着海量数据的挑战与机遇。如何高效、准确地收集、处理、分析和利用这些数据，成为了企业提升业务效率和决策质量的关键。本咨询公司结合多年的行业经验和先进的大数据技术，为企业量身打造了一套大数据平台解决方案。

overfit同步小助手 2024-07-16 05:03:43 0 收藏