大数据 - overfit.cn

大数据-131 - Flink CEP 案例：检测交易活跃用户、超时未交付

通过Flink CEP，开发者可以从流数据中识别出特定的事件模式。将模式应用到流中：将定义好的模式应用到事件流上，生成模式流PatternStream。定义事件模式：使用Flink CEP的API定义事件模式，例如连续事件、迟到事件等。提取匹配事件：使用select函数提取匹配模式的事件，并定义如何

overfit同步小助手 2024-09-18 03:03:53 0 收藏

flink周边使用技巧与汇总

如果只需要将数据发送到 Sink 而不需要容错机制，可以选择使用addSink。如果需要 Sink 支持状态管理和容错，则应该使用sinkTo。

overfit同步小助手 2024-09-18 03:03:25 0 收藏

Superset超火的企业级可视化BI分析工具

Superset，听起来就像是超级集合，确实，它几乎集合了所有你需要的数据功能。简单说，它就是一个现代化、功能强大的数据可视化工具。它支持各种数据库，有着丰富的可视化选项，可以用来创建漂亮的数据仪表盘（dashboard），帮助我们更好地理解数据。还支持通过Web SQL编辑器来编写和执行复杂的SQ

overfit同步小助手 2024-09-18 01:03:49 0 收藏

IEEE-trans“水刊”系列！审稿最快3周！一投就中，非OA，稳稳的黑马潜力刊！

作为一本比较接地气的期刊，其注重实验和实用价值，网友分享的投稿经验，平均审稿周期一般在3-6周。目前，该刊影响因子和发文数量整体呈现上升趋势，偶有回落但未来的潜力很大。

overfit同步小助手 2024-09-17 22:01:30 0 收藏

开源大数据Hadoop伪分布式搭建及虚拟机的创建

虚拟机的创建和开源大数据Hadoop伪分布式搭建及WordCount官方案例的实验

overfit同步小助手 2024-09-17 19:03:56 0 收藏

Hadoop实时数据处理框架Spark技术教程

SparkSQL是Apache Spark框架中的一个模块，它提供了用于处理结构化和半结构化数据的编程接口。SparkSQL不仅能够处理传统的SQL查询，还能够处理更复杂的数据类型，如JSON和XML。它通过DataFrame和Dataset API，使得开发者能够以面向对象的方式处理数据，同时保持

overfit同步小助手 2024-09-17 18:03:58 0 收藏

Git 版本控制必备：如何优雅地使用 git commit命令

Git 作为一种强大的版本控制工具，其核心之一便是 git commit 命令。本文将深入探讨 git commit 的基本概念、命令格式及其在项目管理中的应用，通过了解其背后的逻辑与技巧，开发者能够更有效地控制版本、维护代码的整洁与可追溯性。通过系统地掌握这些知识，我们将能够更自信地应对团队协同开

overfit同步小助手 2024-09-17 17:04:24 0 收藏

Flink系列-作业并行度的设置

Flink，并行度，Key Groups

overfit同步小助手 2024-09-17 17:03:48 0 收藏

spark之时间序列预测(商品销量预测)

本案例使用前1913天的数据作为训练数据，来预测1914天到1941天的销量。以上数据下载后放入resources/advanced下，并在properties.properties中配置一下文件名和路径，以供程序读取和处理数据。2.模型的训练及预测利用python lightgbm进行操作，见ti

overfit同步小助手 2024-09-17 16:03:45 0 收藏

Flink 1.20 最新版本 Windows本地运行

Apache Flink 1.20 是 Flink 的一个较新版本，它带来了许多改进和新功能，如物化表、统一的检查点文件合并机制等。然而，关于 Flink 1.20 在 Windows 本地运行的具体步骤，虽然 Flink 本身是跨平台的，但官方文档和社区资源可能更多地关注于 Linux 环境下的部

overfit同步小助手 2024-09-17 16:03:21 0 收藏

java工程师成功转型大数据

今天我们从电商的核心业务入手，详细剖析了用户行为数据是如何被采集、处理、存储，最后通过推荐算法发挥出它的商业价值。作为Java工程师，咱们在多线程、分布式系统等领域的经验，恰好可以帮助我们顺利转型到大数据领域。

overfit同步小助手 2024-09-17 15:03:28 0 收藏

除了等保2.0，还有哪些法规可能影响云服务客户的选择？

欧盟通用数据保护条例（GDPR）对处理个人数据的组织提出了严格的规定，包括数据保护原则、数据主体权利、数据保护影响评估、数据泄露通知以及跨境数据转移等方面的要求。对于跨境业务，服务提供商应承诺遵守客户业务所在地的法律法规，确保数据跨境传输符合各国的法规要求。：要求提供商签订数据处理协议（DPA），其

overfit同步小助手 2024-09-17 14:03:49 0 收藏

12 个大数据定义：您的定义是什么？

将大数据定义为“其规模超出了典型数据库软件工具的捕获、存储、管理和分析能力的数据集”，麦肯锡的研究人员承认，“这个定义是主观的，并且包含了一个关于数据集需要多大才能被视为大数据的定义。我们称之为大数据问题。维基百科对大数据的定义（在牛津英语词典之前）是（#2）“一个包罗万象的术语，指的是任何数据集的

overfit同步小助手 2024-09-17 13:03:52 0 收藏

Hadoop在window下安装实践

Hadoop在window下的安装教程

overfit同步小助手 2024-09-17 13:03:19 0 收藏

如何利用大数据与AI技术来进行足球预测？

就目前大数据技术与AI技术的发展趋势来看，AI预测将逐渐取代传统的人力足球分析，且目前市面上足球预测系统中，AI预测的市值比重正在不断提高，AI预测蓬勃发展的另一面则是用户的甄别难度提高，为此我准备了一份可靠的足球分析系统，希望能对大家有所帮助。👉AI足球分析系统（PC）👈 提取码:7hrt。

overfit同步小助手 2024-09-17 11:03:20 0 收藏

基于改进字典的大数据多维分析加速实践

OLAP场景是大数据应用中非常重要的一环，能够快速、灵活地满足业务各种分析需求，提供复杂的分析操作和决策支持。

overfit同步小助手 2024-09-17 09:03:35 0 收藏

快手自研Spark向量化引擎正式发布，性能提升200%

通过引入细粒度的FailBack机制，Blaze在翻译过程中遇到暂无Native实现的算子、单个表达式或UDF时，支持算子/单个表达式粒度的回退，能够灵活回退到Spark原生执行。Spark原生执行流程主要依赖于Java虚拟机（JVM）进行任务的执行，尽管JVM在提供跨平台、内存管理等方面有着卓越的

overfit同步小助手 2024-09-17 07:03:39 0 收藏

大数据Flink（一百一十四）：PyFlink的作业开发入门案例

编写Flink程序，读取表中的数据，并根据表中的字段信息进行统计每个单词出现的数量。编写Flink程序，接收socket的单词数据，并以逗号进行单词拆分打印。注意：socketTextStream后的ip是云服务器ecs的公网ip。注意read_text_file后的地址要与实际地址对应。安装nc:

overfit同步小助手 2024-09-17 05:03:49 0 收藏

大数据-129 - Flink CEP 详解 Complex Event Processing - 复杂事件处理

Flink CEP（Complex Event Processing）是Apache Flink的一个组件，用于处理复杂事件流。它允许用户基于流数据定义模式，并检测符合这些模式的事件序列。Flink CEP适用于实时流数据处理中的模式匹配任务，如欺诈检测、设备监控、网络入侵检测等。

overfit同步小助手 2024-09-17 04:03:23 0 收藏

浅谈电商数据采集重要的一环：数据清洗

数据清洗，顾名思义，是指按照预设规则对采集到的原始数据进行筛查、修正和整理的过程。它旨在消除数据中的无效、重复、错误等杂质，确保数据的准确性、完整性和一致性。在电商领域，数据清洗对于提升数据质量、优化业务流程、辅助决策制定等方面具有不可估量的价值。

overfit同步小助手 2024-09-17 03:03:48 0 收藏