大数据 - overfit.cn

Flink应用场景

Apache Flink 功能强大，支持开发和运行多种不同种类的应用程序。它的主要特性包括：批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。Flink 不仅可以运行在包括 YARN、 Mesos、Kubernetes 在内的多种资源管理框架上，还支持在裸机集群上独立部署。(2

overfit同步小助手 2024-03-05 09:03:18 0 收藏

【Flink】Flink 中的时间和窗口之窗口(Window)

Flink是一种流式计算引擎，主要是来处理无界数据流，数据流的数据是一直都有的，等待流结束输入数据获取所有的流数据在做聚合计算是不可能的。为了更方便高效的处理无界流，一种方式就是把无限的流数据切割成有限的数据块进行处理，这就是Flink中提到的。在Flink中，窗口就是用来处理无界流的核心。我们很容

overfit同步小助手 2024-03-05 08:03:43 0 收藏

Spring Boot WebFlux:实现web（Server-Sent Events）事件异步推送

是HTML5中引入的一种新的API，它允许服务器向客户端推送实时事件。这种推送是基于HTTP协议的，并且使用一种特殊的MIME类型，即""，这使得服务器能够发送一系列的事件到客户端。的主要用途是实现服务器和客户端之间的实时通信。客户端通过创建一个对象并指定一个URL，就可以开始监听服务器在该URL上

overfit同步小助手 2024-03-05 08:02:55 0 收藏

AI大语言模型的模型用户与市场

1.背景介绍1.1 人工智能的崛起人工智能（AI）已经成为当今科技领域的热门话题。从自动驾驶汽车到智能家居，AI正在逐渐改变我们的生活方式。然而，AI的应用并不仅限于这些领域。在过去的几年里，AI在语言处理领域的应用已经取得了显著的进步，特别是大型语言模型（Large Language Models

overfit同步小助手 2024-03-05 08:01:42 0 收藏

大数据毕业设计：租房推荐系统 python 租房大数据爬虫+可视化大屏计算机毕业设计（附源码+文档）✅

overfit同步小助手 2024-03-05 06:03:19 0 收藏

Flink窗口与水位线

Flink是一个分布式流处理框架，具有高性能、高可靠性和可扩展性。Flink支持实时和批处理，可以处理无限数据流和有限数据集。它提供了丰富的API和工具，可以方便地进行数据转换、聚合、过滤、窗口计算等操作。Flink还支持多种数据源和数据接收器，包括Kafka、HDFS、Elasticsearch等

overfit同步小助手 2024-03-05 05:03:39 0 收藏

Windows10 Pyspark+Hadoop 环境配置

Hadoop 补丁包下载地址：https://github.com/kontext-tech/winutils，

overfit同步小助手 2024-03-05 01:03:25 0 收藏

Flink 状态和容错

状态是什么：其实状态并不是flink独有的特性，状态在生活中普遍存在和使用，只是近些年在实时任务这些词汇会被频繁提及离线其实也有，比如Remote Shuffle Service，对于整个任务来说，每个 Stage 的结果就是状态，而Remote Shuffle Service 就起到了的作用场景示

overfit同步小助手 2024-03-05 00:03:39 0 收藏

【Spark精讲】SparkSQL的RBO与CBO

Spark SQL的核心是Catalyst查询编译器。SQL优化器：RBO、CBO基于规则的优化器(Rule-Based Optimization,RBO)基于代价的优化器(Cost-Based Optimization,CBO)Outer 类型 Join 中的谓词下推通过 "spark.sql.c

overfit同步小助手 2024-03-05 00:03:36 0 收藏

大数据界面：客户又又又要求科技感了，如何破？

在大数据界面设计中，科技感是指通过使用现代科技元素和设计风格，使得设计作品具有现代感、未来感和高科技感的特征。科技感的大数据界面设计通常具有以下特征：1简洁明了：科技感的大数据界面设计通常采用简洁明了的设计风格，去掉繁琐的细节，突出主题，让用户能够快速地找到所需的信息。2高科技元素：科技感的大数据界

overfit同步小助手 2024-03-04 21:03:53 0 收藏

如何克隆仅Git存储库的子目录

TOC/TOC。

overfit同步小助手 2024-03-04 20:04:34 0 收藏

Flink数据分区与负载均衡

1.背景介绍Flink是一个流处理框架，用于处理大规模数据流。在Flink中，数据分区是一种将数据划分为多个部分以便在多个任务节点上并行处理的方法。负载均衡是一种将数据分布在多个节点上以避免单个节点负载过重的策略。这篇文章将讨论Flink数据分区和负载均衡的背景、核心概念、算法原理、实例代码和未来趋

overfit同步小助手 2024-03-04 20:03:54 0 收藏

Flink状态存储-StateBackend

Flink是一个流处理框架，它需要对数据流进行状态管理以支持复杂的计算逻辑。在Flink中，状态存储是指如何和在哪里存储这些状态数据。Flink提供了多种状态后端（State Backend）来实现这种存储，以满足不同的应用场景和性能需求。StateBackend需要具备如下两种能力：1、在计算过程

overfit同步小助手 2024-03-04 20:03:18 0 收藏

【大数据】Flink 内存管理（二）：JobManager 内存分配（含实际计算案例）

以上 Total Process Memory 的模型图可以分为以下的 4 个内存组件，如果在分配内存的时候，显示的指定了组件其中的1个或者多个，那么JVM Overhead的值就是在其它组件确定的情况下，用Total Process Size- 其它获取的值，必须在min-max之间，如果没有指定

overfit同步小助手 2024-03-04 19:03:45 0 收藏

依托设备全生命周期管理系统，实现企业高效安全运营

设备全生命周期管理系统通过实时监测设备的运行状态和参数，利用数据分析和机器学习算法，预测设备故障，并提供准确的维护建议。例如，某天然气企业通过实施设备全生命周期管理系统，将设备故障和停机时间减少了30%，设备维护成本降低了20%，同时提高了设备的可靠性和安全性。设备全生命周期管理系统提供了一个集中式

overfit同步小助手 2024-03-04 18:07:04 0 收藏

flink连接kafka

flink 连接kafka (基础篇)

overfit同步小助手 2024-03-04 17:03:50 0 收藏

AI 引领企业数据文化变革：探索业务智能与决策优化的新路径

今年年初，Kyligence 高级副总裁兼合伙人葛双寅（Silas Ge）受邀在阿斯利康“跃行致远三十周年年会”进行了《AI 驱动的企业数据文化：塑造未来业务智能与卓越决策》的演讲，分享了 2023 年我们看到的 AIGC、大语言模型、大数据以及企业文化等热门话题的观察与解读，以下为活动演讲实录。

overfit同步小助手 2024-03-04 15:01:18 0 收藏

从零开始了解大数据(六)：数据仓库Hive篇

Apache Hive是一个强大的数据仓库工具，它利用Hadoop的能力，提供了一种高效且简单的类SQL查询语言，使得对大规模数据的分析和查询变得简单而高效。同时，Hive的架构使其具有很好的扩展性，可以轻松地添加新的功能和优化现有的功能。随着大数据技术的不断发展，Apache Hive在未来的发展

overfit同步小助手 2024-03-04 14:03:52 0 收藏

spark withColumn的使用（笔记）

withColumn()：是Apache Spark中用于DataFrame操作的函数之一，它的作用是在DataFrame中添加或替换列，或者对现有列进行转换操作和更新等等。

overfit同步小助手 2024-03-04 14:03:49 0 收藏

Spark 基础概念

Spark1. Spark基础概念1.1 Spark概述1.2 Spark 四大特点运行速度快1.3 Spark 框架1.4 Spark 运行模式集群模式1.5 spark-shell1.6 Spark Application程序1.6 Spark Standalone集群模式介绍Standalo

overfit同步小助手 2024-03-04 14:03:33 0 收藏