大数据 - overfit.cn

Flink 状态管理与容错机制(CheckPoint & SavePoint)的关系

例如一个加法算子，第一次输入2+3=5那么以后我多次数据2+3的时候得到的结果都是5。得出的结论就是，相同的输入都会得到相同的结果，与次数无关。访问量的统计，我们都知道Nginx的访问日志一个请求一条日志，基于此我们就可以统计访问量。如下，/api/a这个url第一此访问的时候，返回的结果就是cou

overfit同步小助手 2023-12-23 08:03:37 0 收藏

大数据HIVE篇--控制hive任务中的map数和reduce数

空置Map和Reduce的个数

overfit同步小助手 2023-12-23 06:03:12 0 收藏

AI在海洋领域的应用与发展

海洋（Oceans）是地球表面陆上水溶性沉积物及其下的海底层。海洋中含有的丰富的生物资源、矿产资源以及海产品。对海洋环境的污染程度也日益增高，如污染物对海洋生物群落的影响、水体排放量、水质变化等。同时海洋也承担着重要的经济、政治和社会责任。近年来，随着人工智能的崛起，海洋科技正在蓬勃发展。以机器学习

overfit同步小助手 2023-12-23 06:01:38 0 收藏

flink源码分析之功能组件(五)-高可用组件

本系列是flink源码分析的第二个系列，上一个《flink源码分析之集群与资源》分析集群与资源，本系列分析功能组件，kubeclient，rpc，心跳，高可用，slotpool，rest，metrics，future。本文解释高可用组件，包括两项服务，主节点选举和主节点变更通知* 高可用服务常见有

overfit同步小助手 2023-12-23 03:03:47 0 收藏

Flink借助Kafka实现端到端精准一次

Flink结束Kafka实现端到端精准一次，包含检查点，保存点，状态后端的概念

overfit同步小助手 2023-12-23 02:03:43 0 收藏

大数据导论—1.1.1，1.1.2

(2)图像数据是指用数值表示的各像素的灰度值的集合，真实世界的图像一般由图像上每一点光的强算和频道(颜色)来表示，把图像信息转换成数据信息时，须将图像分解为很多小区域，这些小区域称为像底，可以用一个数值来表示它的灰度，对于彩色围像常用红、绿、蓝三原色分量表示，顺序地抽取每一个像素的信息,就可以用一个

overfit同步小助手 2023-12-23 01:03:43 0 收藏

HiveSql语法优化三：join优化

前面提到过：Hive拥有多种join算法，包括Common Join，Map Join，Bucket Map Join，Sort Merge Buckt Map Join等；每种join算法都有对应的优化方案。

overfit同步小助手 2023-12-22 23:03:45 0 收藏

大数据基础编程、实验和教程案例（实验七）

你好# 大数据基础编程、实验和教程案例（实验五）

overfit同步小助手 2023-12-22 21:03:45 0 收藏

大数据之Scala简介

大数据之Scala的简单介绍

overfit同步小助手 2023-12-22 20:03:51 0 收藏

（二十五）大数据实战——kafka集群及Kafka-Eagle控制台安装与部署

本节内容我们主要介绍一下搭建kafka集群以及kafka集群的一个web客户端组件Kafka-Eagle的部署安装，使用的kafka版本是kafka_2.12-3.0.0。在搭建kafka集群之前，我们要预先搭建好zookeeper集群，这里作者默认zookeeper的集群环境已经搭建完成，可参考作

overfit同步小助手 2023-12-22 19:03:41 0 收藏

Kibana 设置中文化 - 实现大数据的汉化

默认情况下，Kibana 使用英语界面，但是它也支持将界面语言设置为其他语言，包括中文。通过创建自定义插件并提供相应的翻译文本，我们可以很方便地将 Kibana 的界面语言切换为中文。完成插件文件的创建后，我们需要启动 Kibana，并加载我们的插件。需要注意的是，以上步骤适用于 Kibana 7.

overfit同步小助手 2023-12-22 15:03:35 0 收藏

Flink CDC 3.0 正式发布，详细解读新一代实时数据集成框架

01FlinkCDC概述Flink CDC 是基于数据库日志 CDC（Change Data Capture）技术的实时数据集成框架，支持了全增量一体化、无锁读取、并行读取、表结构变更自动同步、分布式架构等高级特性。配合 Flink 优秀的管道能力和丰富的上下游生态，Flink CDC 可以高效实现

overfit同步小助手 2023-12-22 14:03:31 0 收藏

Elasticsearch安装、使用，Springboot整合Elasticsearch详细教程

overfit同步小助手 2023-12-22 13:06:07 0 收藏

Hudi-简介和编译安装

Apache Hudi（Hadoop Upserts Delete and Incremental）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发，同时保持数

overfit同步小助手 2023-12-22 13:03:46 0 收藏

Flink Table API 与 SQL 编程整理

都是从中scan出来的。而这个myTable又是我们注册进去的。问题就是有哪些方式可以注册Table。类似于上述的WordCount，指定一个文件系统fs，也可以是kafka等，还需要一些格式和Schema等。//将source注册到env中然后把自己的注册进去。例如下面一个String类型的Dat

overfit同步小助手 2023-12-22 12:03:10 0 收藏

【大数据】详解 AVRO 格式

本文对 avro 的格式定义、编码方式、以及实际存储的文件格式进行了详细说明，最后也以一个实际例子进行了对照说明。另外，在官网中还涉及 rpc 的使用、mapreduce 的使用，这里就没有展开说明，有兴趣的可移步官网进行查阅。

overfit同步小助手 2023-12-22 07:03:44 0 收藏

Spark作业串行与并行提交job

在Scala中，您可以以串行和并行的方式提交Spark作业。看看如何使用for和构造对应的例子。

overfit同步小助手 2023-12-22 07:03:40 0 收藏

flink 踩坑记录

flink cdc踩坑记录

overfit同步小助手 2023-12-22 06:03:47 0 收藏

大数据毕业设计选题推荐-农作物观测站综合监控平台-Hadoop-Spark-Hive

随着科技的发展和全球气候变化的挑战，农业生产的效率和可持续性越来越受到人们的关注。为了提高农业生产的效率和可持续性，需要进行长期的的农作物观测和监控。传统的农作物观测站通常需要大量的人力物力进行维护，而且受到时间和空间的制约，无法做到实时的观测和监控。因此，基于大数据的农作物观测站监控平台的研究和应

overfit同步小助手 2023-12-22 03:03:49 0 收藏

【Spark基础】-- RDD、DataFrame 和 Dataset 的对比

DataFrame 支持从最流行的格式中读取数据，包括 JSON 文件、Parquet 文件、Hive 表。它可以从本地文件系统、分布式文件系统（HDFS）、云存储（S3）和通过JDBC连接的外部关系数据库系统中读取数据。此外，通过 Spark SQL 的外部数据源 API，DataFrame 可以

overfit同步小助手 2023-12-22 03:03:43 0 收藏