大数据 - overfit.cn

51、Flink的管理执行（执行配置、程序打包和并行执行）的介绍及示例

调用打包后程序的完整流程包括两步：搜索 JAR 文件 manifest 中的 main-class 或 program-class 属性。如果两个属性同时存在，program-class 属性会优先于 main-class 属性。对于 JAR manifest 中两个属性都不存在的情况，命令行和 w

overfit同步小助手 2024-03-24 07:03:56 0 收藏

Flink SQL -- CheckPoint

checkpoint可以定时将flink任务的状态持久化到hdfs中，任务执行失败重启可以保证中间结果不丢失。

overfit同步小助手 2024-03-24 05:03:30 0 收藏

入门spark和Scala

一，spark的介绍Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM

overfit同步小助手 2024-03-24 02:03:54 0 收藏

Flink流处理案例：实时数据排序

1.背景介绍1. 背景介绍Apache Flink是一个流处理框架，用于实时数据处理和分析。它可以处理大规模数据流，并提供低延迟、高吞吐量和强一致性等特性。Flink流处理框架支持多种数据源和接口，如Kafka、HDFS、TCP等，可以处理各种复杂的数据流操作，如窗口操作、连接操作、聚合操作等。在实

overfit同步小助手 2024-03-24 01:03:53 0 收藏

6.1 Elasticsearch（一）Docker搭建ES集群

Elasticsearch是一个分布式搜索引擎服务器，搜索引擎有自己专门的搜索引擎服务器，而不是依靠数据库来做，我们搜索内容时，如果使用数据库来做，则需要模糊查询数据库中所有的数据，一条一条的去顺序比对，这种搜索效率是极低的；我们这里介绍Elasticsearch搜索引擎服务器，使用时需要将数据库中

overfit同步小助手 2024-03-23 22:06:23 0 收藏

Hadoop-3.3.0-Centos7安装详解

这里是将JDK添加到user_hbase用户的环境变量中，执行“vi ~/.bash_profile”命令，打开.bash_profile文件，在文件底部添加如下内容即可。配置IP映射，将三台虚拟机的IP地址与对应的主机名进行映射，便于后续可以直接通过主机名访问对应的主机，这里以虚拟机node1为例

overfit同步小助手 2024-03-23 21:03:40 0 收藏

使用HBase的数据生命周期管理：自动删除过期数据

1.背景介绍在大数据时代，数据的生命周期管理成为了一项重要的技术挑战。HBase作为一个高性能的分布式数据库，可以帮助我们解决这个问题。本文将从以下几个方面进行阐述：背景介绍核心概念与联系核心算法原理和具体操作步骤以及数学模型公式详细讲解具体最佳实践：代码实例和详细解释说明实际应用场景工具和资源推荐

overfit同步小助手 2024-03-23 18:03:49 0 收藏

数据仓库【指标体系】

指标体系可以帮助我们整体理解业务、全面了解问题、快速定位问题、迅速落地方案，我们说的指标体系不止是指标，还有指标管理和指标监控。

overfit同步小助手 2024-03-23 12:03:39 0 收藏

【Git】第二课：git安装和配置

如何安装git

overfit同步小助手 2024-03-23 09:03:53 0 收藏

Flinksql实时计算——group by key和 group by key 带窗口聚合有什么不同

带窗口聚合时，你可以指定一个时间窗口（如过去一小时、过去一天等），并在这个时间窗口内对 key 进行聚合。这允许你分析在特定时间范围内的数据，而不是整个历史数据集。这个聚合是基于 key 的所有历史数据进行的，不考虑时间窗口或数据排序。在处理流数据时特别有用，因为它允许你分析数据的实时变化，而不仅仅

overfit同步小助手 2024-03-23 08:03:54 0 收藏

博鳌论坛全球经济发展与安全-万祥军|中国智库·国家（中国）智库

overfit同步小助手 2024-03-23 05:07:14 0 收藏

Spark.第二周

一旦发生灾难，需安装配置所需的运行环境，用数据备份介质(磁带或光盘) 恢复应用数据，手工逐笔或自动批量追补孤立数据，将终端用户通过通讯线路切换到备份系统，恢复业务运行。(1)运行速度快，如果数据由磁盘读取，速度是hadoop mapreduce的10倍以上，如果数据从内存读取，速度是hadoop m

overfit同步小助手 2024-03-23 05:03:48 0 收藏

flink第一课（详细理论）--体系架构

01 Flink简介Flink的体系架构基本上可以分为三层，由上往下依次是API & Libraries层、Runtime核心层以及物理部署层。API & Libraries层作为分布式数据处理框架，Flink同时提供了支撑流计算和批计算的接口，并在此基础之上抽象出不同的应用类型的组件库，如基于流

overfit同步小助手 2024-03-23 03:03:29 0 收藏

从政府工作报告探云计算、大数据与人工智能的应用与推动作用

overfit同步小助手 2024-03-23 03:01:37 0 收藏

Flink源码解析（1）job启动，从JM到TM过程详解

注：ActorRef就是actor的引用，封装好了actor下面是jm和tm在通讯上的概念图：RpcGateway关注其5个实现类：Dispatcher、ResourceManager、JobMaster、MetricQueryService、TaskExecutor。

overfit同步小助手 2024-03-23 01:03:46 0 收藏

基于 Python 的大数据的电信反诈骗系统

基于大数据反电信诈骗管理系统的目的就是在于建立属于自己的一套反电信诈骗系统，在日常的工作中，反电信诈骗是一件非常重要的事情，主要还是用python的手段来进行的开发。关键词：反电信诈骗系统；信息技术；python；

overfit同步小助手 2024-03-23 00:03:32 0 收藏

Spark内容分享(十二)：Spark 和 MapReduce 的区别及优缺点

Spark的DAGScheduler相当于一个改进版的MapReduce，如果计算不涉及与其他节点进行数据交换，Spark可以在内存中一次性完成这些操作，也就是中间结果无须落盘，减少了磁盘IO的操作。有一个误区，Spark是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，H

overfit同步小助手 2024-03-22 18:03:45 0 收藏

Flink实时数仓之用户埋点系统（一）

基于Flink开发的埋点系统

overfit同步小助手 2024-03-22 17:03:33 0 收藏

GEE遥感云大数据林业应用典型案例实践及GPT模型应用

专题涉及长时间序列遥感影像预处理、植被指数批量计算、年度影像合成、数组影像概念和使用方法、LandTrendr算法原理及参数设置、森林扰动结果解译与空间统计分析、可视化及专题图绘制等。专题涉及影像过滤、Landsat和Sentinel-2光学影像除云等预处理、植被指数计算、影像合成、火灾区域识别和灾

overfit同步小助手 2024-03-22 16:03:55 0 收藏

Flink 集群部署模式

Flink支持多种集群部署模式，以满足不同场景和需求。会话模式（Session Mode）在会话模式下，用户首先启动一个长期运行的Flink集群，然后在这个会话中提交多个作业。集群资源在启动时就已经确定，提交的作业会竞争集群中的资源，直到作业运行完毕释放资源。会话模式适合执行大量规模小、执行时间短的

overfit同步小助手 2024-03-22 13:03:29 0 收藏