大数据 - overfit.cn

Flink+Paimon多流拼接性能优化实战

Flink+Paimon多流拼接性能优化实战，本文使用Flink+Paimon基于ParmaryKey Table主键表（PartialUpdate）进行多流拼接的时候，跑一段时间有时会遇到周期性背压、checkpoint时间过长等情况，本文通过剖析源码逻辑、修改源码，在一定程度上解决了这个问题。另

overfit同步小助手 2023-09-24 17:03:25 0 收藏

Spring boot使用Kafka Java反序列化漏洞 CVE-2023-34040

背景：公司项目扫描到 Spring-Kafka上使用通配符模式匹配进行的安全绕过漏洞 CVE-2023-20873Spring Kafka 是 Spring 框架提供的一个库，它提供了使用 Apache Kafka 的便捷方式。Apache Kafka 是一个开源的流处理平台，主要用于构建实时数据流

overfit同步小助手 2023-09-24 16:03:47 0 收藏

数据仓库中的自动化与智能化

作者：禅与计算机程序设计艺术 “数据仓库”（Data Warehouse）是企业进行数据整合、分析和报告的一套系统，用于存储管理和分析公司的庞大、复杂的数据集。根据《Wikipedia》定义，数据仓库是一个集成的，面向主题的数据库集合，它提取不同来源、多种形式的

overfit同步小助手 2023-09-24 16:03:26 0 收藏

RabbitMQ入门案例之发布订阅模式

RabbitMQ中的发布与订阅模式是一种消息传递的方式，用于在分布式系统中传递消息。在该模式中，发送者（发布者）通过将消息发送到一个称为Exchange（交换机）的组件，消息将被路由到一个或多个称为Queue（队列）的组件。每个队列都有一个名称和一组绑定（bindings），指定接收哪些消息。消费者

overfit同步小助手 2023-09-24 14:03:47 0 收藏

大数据开发八股文总结——Hadoop

大数据开发学习总结——Hadoop

overfit同步小助手 2023-09-24 14:03:32 0 收藏

PySpark实战指南：大数据处理与分析的终极指南【上进小菜猪大数据】

上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。大数据处理与分析是当今信息时代的核心任务之一。本文将介绍如何使用PySpark（Python的Spark API）进行大数据处理和分析的实战技术。我们将探讨PySpark的基本概念、数据准备、数据处理和分析的关键步骤，并提供示例代码和技术深度

overfit同步小助手 2023-09-24 14:03:26 0 收藏

大数据数据仓库

数据仓库是为企业制定决策，提供数据支持的。数据采集和存储、对数据进行计算和分析。

overfit同步小助手 2023-09-24 13:03:21 0 收藏

分布式应用之Zookeeper和Kafka

【代码】分布式应用之Zookeeper和Kafka。

overfit同步小助手 2023-09-24 12:03:47 0 收藏

Hadoop启动后没有datenode进程的解决办法

网上的说法大多数都是由于进行hadoop格式化的时候没有事先结束所有进程，或者多次进行了format导致的datanode的clusterID 和 namenode的clusterID不匹配，从而在启动后没有datanode进程。

overfit同步小助手 2023-09-24 12:03:20 0 收藏

使用finksql方式将mysql数据同步到kafka中，每次只能同步一张表

overfit同步小助手 2023-09-24 10:03:40 0 收藏

GaussDB（DWS）云原生数仓技术解析：湖仓一体，体验与大数据互联互通

云计算时代，数仓能为我们带来哪些便利？GaussDB（DWS）即将发布的云原生数仓如何构筑新一代数据仓库的技术底座，在云原生数仓的地基之上，数据时代的产业又将如何扩张、拓展？在本文中我们将带您解密华为云新一代云数仓 GaussDB（DWS） 3.0 的核心技术与划时代意义。

overfit同步小助手 2023-09-24 06:03:23 0 收藏

泛微OA-E9和用友NCC单据接口对接

用户可以在创建集成方案的时候在第四步选择引用市场方案，参考市场主流所进行的字段配置完成集成方案的自定义化快速配置，即便是第一次使用轻易云平台的用户也能轻松搭建属于自己的数据同步方案。向导式配置，让配置更加清晰，首先确定该方方案的对接内容，第二歩获取筛选数据源平台的数据，第三步数据源与写入目标形成映射

overfit同步小助手 2023-09-24 04:03:43 0 收藏

zookeeper的环境搭建和配置

然后切换到zookeeper的安装目录中，找到conf文件夹，里面有zoo-sample.cfg 文件，它为zookeeper的配置文件，将其重命名为zoo.cfg，然后使用 vi 编辑器将配置进行修改。因为刚刚上面配置的/zookeeper/zkdata目录并不存在，所以我们需要创建zkdata文

overfit同步小助手 2023-09-24 04:03:36 0 收藏

Unable to start embedded Tomcat（已解决）

overfit同步小助手 2023-09-24 03:03:39 0 收藏

RabbitMQ反序列化失败：Failed to convert message

把这个对象放到公共模块，然后生产者和消费者服务引入这个公共模块，生产者和消费者发送和消费时共用一个对象。这样完全保证了两个项目中JavaBean是一致的，所以能解决反序列失败的问题。这个异常信息表明在处理消息时出现了问题，具体地说，它是由于消息内容的反序列化失败引起的。缺点：局限性太小，这种模式生产

overfit同步小助手 2023-09-24 03:03:10 0 收藏

FlinkCDC的介绍和原理

总的来说，FlinkCDC 的原理就是通过解析 MySQL 中的 binlog，抓取到最新的增量数据，并将其转换为 Flink 支持的数据格式，然后将增量数据同步到 Flink 或者其他的计算引擎中进行处理。FlinkCDC 是阿里巴巴开源的一个基于 Flink 的分布式流式数据同步工具，它可以将

overfit同步小助手 2023-09-24 02:03:48 0 收藏

2023年大数据开题报告详细模版

🙌😂oi退役选手，Java、大数据、单片机、IoT均有所涉猎，热爱技术，技术无罪获取源码，添加WX。

overfit同步小助手 2023-09-24 02:03:29 0 收藏

Mechanisms for Deployment and Running a Hadoop+Spark Cl

大数据集市的蓬勃发展给企业、政府、媒体等提供海量的数据资源。随着Hadoop和Spark等开源工具的不断发展，越来越多的人开始采用这类框架来开发分布式计算系统。然而，部署和运行Hadoop集群、Spark应用也面临一些关键的技术问题。因此，如何有效地部署并运行Hadoop+Spark集群一直是一个难

overfit同步小助手 2023-09-24 01:03:43 0 收藏

Flink Table/Sql自定义Kudu Sink实战(其它Sink可参考)

DynamicTableSourceFactory或DynamicTableSinkFactory将CatalogTable的metadata，转换成DynamicTableSource或DynamicTableSink的实例数据。：Flink Catalog已有的Flink Table，或在Fli

overfit同步小助手 2023-09-24 00:03:47 0 收藏

flink1.17 实现 udf scalarFunctoin get_json_object 支持非标准化json

相比官方的json_value,该函数支持非标准化json,比如v是个object,但是非标准json会外套一层引号,内部有反引号.支持value为 100L 这种java格式的bigint. {"k":999L}基于jsonPath 方便,可以获取多层级内部值。

overfit同步小助手 2023-09-24 00:03:44 0 收藏