大数据 - overfit.cn

Flink-窗口详解:(第44天)

Apache Flink的窗口机制是处理实时流数据的关键功能之一，它允许开发者将数据流切分成有限的“块”（或称为“窗口”），并在这些块上执行计算。本文对Flink窗口机制的详细解析，并结合具体例子进行分析。

overfit同步小助手 2024-07-25 08:03:47 0 收藏

数据平台发展史-从数据仓库数据湖到数据湖仓

所谓「数据平台，主要是指数据分析平台，其消费（分析）内部和外部其它系统生成的各种原始数据（比如券商柜台系统产生的各种交易流水数据，外部行情数据等），对这些数据进行各种分析挖掘以生成衍生数据，从而支持企业进行数据驱动的决策」数据分析平台，需要上游系统（内部或外部）提供原始数据；- 数据分析平台，会经过

overfit同步小助手 2024-07-25 06:03:39 0 收藏

flink初学者踩坑系列：flink1.17集群模式在jdk17启动不了

经过文心一言的指点（虽然是文心一言指出解决方法，但我问了好多遍、换着问法才终于问出来了。在 Java 9 及更高版本中，模块系统引入了新的模块化概念，这意味着某些包和类不再默认可见。在Linux系统jdk17环境下启动flink1.17，输入start-cluster.sh，输入jps，flink相

overfit同步小助手 2024-07-25 03:03:39 0 收藏

【大数据技术概述】Hadoop、Spark等大数据技术介绍

大数据指的是无法用传统数据库工具进行采集、管理和处理的海量数据集。大数据技术通过分布式存储和计算，能够高效地处理和分析这些数据，提取有价值的信息。常见的大数据技术包括Hadoop、Spark、Flink、Hive等。Hadoop是一个开源的分布式计算框架，由Apache基金会维护。Hadoop的核心

overfit同步小助手 2024-07-24 20:03:51 0 收藏

Flink CDC 同步表至Paimon 写数据流程，write算子和commit算子。

流程图一般基本flink cdc 任务同步数据至paimon表时包含3个算子，source、write、global commit。source端一般是flink connector实现的连接源端进行获取数据的过程，本文探究的是source算子获取的到数据如何传递给writer算子？writer算子

overfit同步小助手 2024-07-24 17:03:45 0 收藏

spark内存溢出怎么办

Spark内存溢出（OOM，Out Of Memory）通常指的是在执行任务时，Executor或Driver的内存资源不足以容纳运行中的数据和中间结果，从而导致应用程序崩溃。综上所述，解决Spark内存溢出问题需要综合分析应用场景和具体错误日志，结合上述策略调整资源配置和优化代码实现。

overfit同步小助手 2024-07-24 17:03:40 0 收藏

Flink CDC：基于 Apache Flink 的流式数据集成框架

Flink CDC 最早的发展就始于 GitHub 开源社区。自 2020 年 7 月开始，项目在 Ververica 公司的 GitHub 仓库下以 Apache 2.0 协议开放源代码。并提供了从主流 MySQL 和 PG SQL 数据库中捕获变化数据的能力。2.0 版本引入了运行更高效、更稳定

overfit同步小助手 2024-07-24 16:03:25 0 收藏

flink05 并行度与事件时间

1、在代码中设置:env.setParallelism(并行度数量) （优先级高，会将代码并行度定死）3、在配置文件中统一设置4、每一个算子可以单独设置并行度。

overfit同步小助手 2024-07-24 15:03:27 0 收藏

如何学习Python：糙快猛的大数据之路（学习地图）

想要掌握Python大数据开发吗？本文带你从"糙快猛"起步，到成为行业专家！我们涵盖了从Python基础到前沿技术的全面知识，包括数据处理、可视化、机器学习和深度学习。通过实战案例，了解Python在金融、医疗和智慧城市中的应用。提供详细学习路径和资源推荐，助你快速进步。无论你是初学者还是有经验的开

overfit同步小助手 2024-07-24 13:03:19 0 收藏

【Elasticsearch】Elasticsearch动态映射与静态映射详解

Elasticsearch 是一个分布式搜索和分析引擎，广泛应用于实时数据分析和全文检索中。在使用 Elasticsearch 时，映射（Mapping）是定义索引中文档结构和字段类型的过程。映射主要分为动态映射和静态映射两种方式。本文将详细介绍这两种映射的区别及其在不同场景中的应用。映射是 Ela

overfit同步小助手 2024-07-24 12:05:57 0 收藏

在Elasticsearch中添加字段

当使用Elasticsearch（ES）添加字段时，通常会涉及到更新已有索引的映射（mapping），以确保新字段能够被正确地索引和搜索。下面是如何通过ES的API来更新索引映射并添加一个新字段的详细步骤：

overfit同步小助手 2024-07-24 12:05:47 0 收藏

大数据的质量与准确性：如何实现高质量的数据集

1.背景介绍大数据技术的发展为各行业带来了巨大的革命，但同时也为数据质量和准确性提出了挑战。在大数据环境下，数据的质量和准确性成为关键问题。本文将从以下几个方面进行阐述：大数据的质量与准确性如何实现高质量的数据集核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具体代码实例和详细解释说

overfit同步小助手 2024-07-24 10:03:45 0 收藏

化工厂人员定位系统：聚焦化工安全，提升智慧管理水平

化工厂人员定位系统，以人员定位技术为核心，整合访客管理、出入口控制、地图、人脸识别、视频监控数据采集等各种管控技术，提供精准实时定位、轨迹查询、货物跟踪等功能，又称“智能化二道门人员管理系统”。去年鞍钢众元产业公司金属结构公司作业人员在包保运营的第二烧结作业区脱硫塔下清灰作业时，脱硫塔塔斗脱落，致8

overfit同步小助手 2024-07-24 09:07:25 0 收藏

毕业设计基于大数据的共享单车数据分析与可视化

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据的共享单车数据分析与可视化🥇学

overfit同步小助手 2024-07-24 09:03:43 0 收藏

大数据技术--实验01-Hadoop的安装与使用【实测可行】

使用下面表中的软件版本进行配置：准备好后，按照下面的步骤进行配置。在VMWare主界面，点击“编辑”>“虚拟网络编辑”菜单进入虚拟网卡参数设置界面。选择VMnet8条目，点击“NAT设置”按钮后可以看到我们的VMWare Workstation为NAT连接的虚拟机设定的默认网关，此处为192.168

overfit同步小助手 2024-07-24 07:03:50 0 收藏

hadoop 3.X 分布式HA集成Kerbos(保姆级教程）

前提：先安装Kerbos。

overfit同步小助手 2024-07-24 06:03:21 0 收藏

如何学习Airflow：糙快猛的大数据之路（附思维导图）

想要成为Airflow大师吗？"糙快猛"学习指南带你从入门到精通！从基础概念到高级应用，再到未来趋势，我们涵盖了所有你需要知道的内容。学习动态DAG生成、性能优化、与大数据生态系统集成，以及企业级最佳实践。采用的方法？快速上手，在实践中学习，逐步增加复杂度。无论你是初学者还是有经验的开发者，这份指南

overfit同步小助手 2024-07-24 06:03:18 0 收藏

Spark SQL----INSERT TABLE

INSERT语句将新行插入表中或覆盖表中的现有数据。同时使用分区spec和column列表进行插入。同时使用分区spec和column列表进行插入。使用REPLACE WHERE语句插入。使用VALUES子句进行单行插入。使用VALUES子句进行多行插入。为分区列值使用类型化日期文字插入。为分区列值

overfit同步小助手 2024-07-24 04:03:32 0 收藏

摸鱼大数据——Spark基础——Spark环境安装——PySpark搭建

bashrc 也是看名字就知道, 是专门用来给 bash 做初始化的比如用来初始化 bash 的设置, bash 的代码补全, bash 的别名, bash 的颜色. 以此类推也就还会有 shrc, zshrc 这样的文件存在了, 只是 bash 太常用了而已.其实看名字就能了解大概了, profi

overfit同步小助手 2024-07-24 03:03:44 0 收藏

Azure DevOps与大数据：Apache Spark的流处理任务

好了，朋友们！🎉 你已经学会了如何使用Azure DevOps和Apache Spark来自动化流处理任务的构建和部署。这不仅加快了开发速度，也保证了代码的质量和一致性。继续探索吧，DevOps和数据科学的世界充满了无限可能！请注意，在实际部署中，你可能需要根据你的具体需求和环境进行一些调整，比如

overfit同步小助手 2024-07-24 01:03:21 0 收藏