大数据 - overfit.cn

当在使用flinksql的left join出现撤回流该如何解决？

在 Flink SQL 中，INNER JOIN、RIGHT JOIN 和 FULL OUTER JOIN 操作会因为数据变化而产生撤回流。这是为了确保流处理的结果一致性和准确性。在设计流处理应用时，需要考虑这些撤回流的影响，选择合适的 sink connector，例如 upsert-kafka，

overfit同步小助手 2024-07-25 21:03:44 0 收藏

C# WPF入门学习主线篇（二十四）—— 数据绑定基础

在本篇博客中，我们详细介绍了WPF中的数据绑定基础知识。通过具体的代码示例，展示了单向绑定和双向绑定的使用方法，以及如何使用绑定路径和数据上下文来实现更灵活的绑定。希望通过这篇博客，读者能够深入理解和掌握WPF数据绑定的基本概念和应用技巧。

overfit同步小助手 2024-07-25 20:03:41 0 收藏

hadoop离线与实时的离线与实时的电影推荐系统毕业设计-附源码10338

系统采用了B/S结构，将所有业务模块采用以浏览器交互的模式，选择MySQL作为系统的数据库，开发工具选择My eclipse来进行系统的设计。基本实现了离线与实时的电影推荐系统应有的主要功能模块，本系统有管理员、用户两大功能模块，管理员：首页、网站管理（轮播图、公告消息）人员管理（管理员、普通用户

overfit同步小助手 2024-07-25 20:03:24 0 收藏

Spark-广播变量详解

Spark广播变量

overfit同步小助手 2024-07-25 19:03:41 0 收藏

68、Flink DataStream Connector 之文件系统详解

Flink DataStream Connector 之文件系统详解

overfit同步小助手 2024-07-25 19:03:31 0 收藏

RabbitMQ如何保证消息可靠

消息不会丢失，会重新变为Ready，下一次有新的Consumer连接进来就发给他。* 我们收到很多消息，自动回复给服务器ack，只有一个消息处理成功，宕机了。* @param correlationData 当前消息的唯一关联数据（这个是消息的唯一id）* 1、默

overfit同步小助手 2024-07-25 18:03:52 0 收藏

Spark实现电商消费者画像案例

overfit同步小助手 2024-07-25 17:03:44 0 收藏

Zookeeper（从入门到掌握）看完这一篇就够了

Curator 是 Apache ZooKeeper 的Java客户端库。原生Java APIZkClientCuratorCurator 项目的目标是简化 ZooKeeper 客户端的使用。Curator 最初是 Netfix 研发的,后来捐献了 Apache 基金会,目前是 Apache 的顶级

overfit同步小助手 2024-07-25 17:03:27 0 收藏

DataX自动化生成配置json,创建ODS表,多线程调度脚本[mysql--＞hive]

结合Dolphinscheduler,自动化生成datax抽取任务json文件,自动化创建ods表,自动化多线程执行任务,支持创建hive分区表,自动创建分区,修复分区,支持kerberos认证,mysql多库多表配置

overfit同步小助手 2024-07-25 15:03:34 0 收藏

如何学习Kafka：糙快猛的大数据之路（快速入门到实践）

在这个"糙快猛"的Kafka学习之旅中，我们从基础概念出发，逐步深入到高级特性和实战应用。我们探讨了Kafka的核心组件、工作原理、生产者-消费者模型，以及与大数据生态系统的集成。我们还深入研究了Kafka的高级特性，如事务、幂等性和位移管理，同时学习了性能调优的技巧。通过实际案例，我们看到了Kaf

overfit同步小助手 2024-07-25 14:03:36 0 收藏

大数据领域的常用开发语言详解

这些语言在大数据开发领域各有其独特的优点和缺点，开发者需要根据具体的应用场景和需求来选择合适的语言。

overfit同步小助手 2024-07-25 13:03:47 0 收藏

Kafka Producer之幂等性

幂等性通过消耗时间和性能的方式，解决乱序和重复问题。但是只能保证。

overfit同步小助手 2024-07-25 13:03:36 0 收藏

Python--Spark RDD filter 方法使用及性能优化笔记

在Apache Spark中，RDD（弹性分布式数据集）是基本的数据结构，用于处理大规模数据集。filter是 RDD 的一个常用方法，用于对数据进行过滤，只保留满足特定条件的数据。

overfit同步小助手 2024-07-25 12:03:48 0 收藏

微服务边界守卫：Eureka中服务隔离策略的实现

如果需要更细粒度的隔离控制，可以开发自定义的隔离规则。以下是一个使用Spring Cloud的@Service@Autowired在这个示例中，我们根据服务实例的安全组信息，使用获取特定组的服务实例列表。

overfit同步小助手 2024-07-25 12:03:34 0 收藏

数据仓库之StarRocks

Palo，中国的互联网公司百度开发并开源的，后更名为doris。StarRocks是一款由doris的一个分支演化而来的、开源分布式列式存储数据库。旨在提供高性能、高可靠性和低延迟的大数据分析和查询服务。

overfit同步小助手 2024-07-25 11:03:17 0 收藏

Spark常见算子详解

groupByKey 和groupby 的区别是前者是确定以key为分组，所以只返回value的迭代器，程序上后者不确定以什么来分组，所以返回[(String,Int) (K,V)]定义：countByKey算子统计K-v类型的数据中的Key的次数，countByValue统计所有的value出现的

overfit同步小助手 2024-07-25 10:03:51 0 收藏

Flink-窗口详解:(第44天)

Apache Flink的窗口机制是处理实时流数据的关键功能之一，它允许开发者将数据流切分成有限的“块”（或称为“窗口”），并在这些块上执行计算。本文对Flink窗口机制的详细解析，并结合具体例子进行分析。

overfit同步小助手 2024-07-25 08:03:47 0 收藏

SpringBoot整合Flink CDC，实时追踪mysql数据变动

Flink CDC（Flink Change Data Capture）是一种基于数据库日志的CDC技术，它实现了一个全增量一体化的数据集成框架。与Flink计算框架相结合，Flink CDC能够高效地实现海量数据的实时集成。其核心功能在于实时监视数据库或数据流中的数据变动，并将这些变动抽取出来，以

overfit同步小助手 2024-07-25 08:03:22 0 收藏

zookeeper和Kafka消息队列群集部署

Kafka是一种高吞吐量的分布式发布/订阅消息系统kafka是Apache组织下的一个开源系统可以实时的处理大量数据以满足各种需求场景。

overfit同步小助手 2024-07-25 06:03:49 0 收藏

数据平台发展史-从数据仓库数据湖到数据湖仓

所谓「数据平台，主要是指数据分析平台，其消费（分析）内部和外部其它系统生成的各种原始数据（比如券商柜台系统产生的各种交易流水数据，外部行情数据等），对这些数据进行各种分析挖掘以生成衍生数据，从而支持企业进行数据驱动的决策」数据分析平台，需要上游系统（内部或外部）提供原始数据；- 数据分析平台，会经过

overfit同步小助手 2024-07-25 06:03:39 0 收藏