大数据 - overfit.cn

流数据湖平台Apache Paimon（一）概述

Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合，推出新一代的 Streaming Lakehouse 技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Ta

overfit同步小助手 2023-09-19 17:06:57 0 收藏

2023_Spark_实验四：SCALA基础

Scala基础，通过Scala交互命名学习Scala基础语法，学习数据常用类型，变量声明，Scala函数与方法，条件表达式，循环，函数参数类型，数组，元组，映射等基础知识。

overfit同步小助手 2023-09-19 16:03:48 0 收藏

HBase入门(一)

HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。

overfit同步小助手 2023-09-19 09:04:39 0 收藏

ES-ElasticSearch查询命令

根据条件查询符合标准的doc文档，需要使用更进阶的查询方式，在ES中一般采用请求体格式通过**_search**来进行查询，query子句主要用于编写查询条件，类似SQL中的where语句。

overfit同步小助手 2023-09-19 08:03:57 0 收藏

大数据Flink（七十四）：SQL的滑动窗口（HOP）

与滚动窗口功能一样，也有窗口大小的概念。不一样的地方在于，滑动窗口有另一个参数控制窗口计算的频率（滑动窗口滑动的步长）。因此，如果滑动的步长小于窗口大小，则滑动窗口之间每个窗口是可以重叠。这样，每 5 分钟会划分一次窗口，这个窗口包含的数据是过去 10 分钟内的数据，如下图所示。：比如计算同时在线的

overfit同步小助手 2023-09-19 08:03:38 0 收藏

Hadoop格式化时报错，已解决！

Re-format filesystem in Storage Directory root= /usr/local/hadoop/tmp/dfs/name; location= null ? (Y or N) Y

overfit同步小助手 2023-09-19 07:03:49 0 收藏

【大数据】Flink 详解（六）：源码篇 Ⅰ

PipeExecutor在 Flink 中被叫做流水线执行器，它是一个接口，是Flink Client生成 JobGraph 之后，将作业提交给集群的重要环节。前面说过，作业提交到集群有好几种方式，最常用的是yarn方式，yarn方式包含3种提交模式，主要使用session模式，per-job模式。

overfit同步小助手 2023-09-19 06:04:06 0 收藏

SparkLauncher提交spark 正确的退出方式以及状态获取

SparkLauncher 提交 Spark任务，使用CountDownLatch获取任务状态，出现状态获取不准确问题，spark任务是失败的，但是返回成功。

overfit同步小助手 2023-09-19 06:03:24 0 收藏

Elasticsearch 集成--Flink 框架集成

是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。掀开了内存计算的先河，以内存作为赌注，赢得了内存计算的飞速发展。但是在其火热的同时，开发人员发现，在Spark中，计算框架普遍存在的缺点和不足依然没有完全解决，而这些问题随着5G时代的来临以及决策者对实时数据分析结果的迫切需要而凸显的更加明显：

overfit同步小助手 2023-09-19 01:04:03 0 收藏

大数据-玩转数据-Flink 网站UV统计

在实际应用中，我们往往会关注，到底有多少不同的用户访问了网站，所以另外一个统计流量的重要指标是网站的独立访客数（Unique Visitor，UV）。对于UserBehavior数据源来说，我们直接可以根据userId来区分不同的用户。将userid放到SET集合里面，统计集合长度，便可以统计到网站

overfit同步小助手 2023-09-19 01:03:32 0 收藏

【京东JD电商平台api接口】获得JD商品详情接口PHP调用演示示例

京东提供了商品详情API接口，可以帮助开发者获取到指定商品的详细信息，例如价格、库存、销售量、详情描述、图片等。具体获取方式如下：1.首先需要在开放平台上申请API接口密钥。2. 登录API接口调用地址。3.根据API接口文档中的参数要求，构造API接口请求的参数。4.将参数进行签名加密。5.发送H

overfit同步小助手 2023-09-19 01:02:28 0 收藏

Sparkthrift Server 启动命令调优及问题报错解决

文章目录1、sparkthrift Server 启动命令2、实际生产过程中的报错解决2.1、Kryo serialization failed: Buffer overflow. Available: 0, required: 2428400. To avoid this, increase sp

overfit同步小助手 2023-09-19 00:05:06 0 收藏

使用 Apache SeaTunnel 实现 Kafka Source 解析复杂Json 案例

近些时间，我们正好接手一个数据集成项目，数据上游方是给我们投递到Kafka，我们一开始的技术选型是SpringBoot+Flink对上游数据进行加工处理（下文简称：方案一），由于测试不到位，后来到线上，发现数据写入效率完全不符合预期。后来将目光转到开源项目SeaTunnel上面，发现Source支持

overfit同步小助手 2023-09-18 23:03:55 0 收藏

flink数据流单(kafka)流根据id去重

配置: table.exec.state.ttl。

overfit同步小助手 2023-09-18 19:03:52 0 收藏

Hadoop支持LZO压缩

LZO（Lempel-Ziv-Oberhumer）是一种高效的压缩算法，适用于Hadoop中的数据压缩。Hadoop支持使用LZO算法对数据进行压缩，以减少存储空间占用和数据传输开销。

overfit同步小助手 2023-09-18 08:03:28 0 收藏

Spark最后一课

如果是Client模式,则Driver就是本机了,Executor 会直接交互本机,远程访问提交,不能停止,同时所有Executor会交互本机,而本机资源不足,会导致系统和网络崩溃.按照等级进行尝试,从高等级到低等级,降级机制.如何避免多次访问通一个节点?9.Driver调用资源,找到空闲的NM,进

overfit同步小助手 2023-09-18 06:03:35 0 收藏

大数据-玩转数据-Flink RedisSink

可以根据要写入的redis的不同数据类型进行调整。具体版本根据实际情况确定。

overfit同步小助手 2023-09-18 01:03:45 0 收藏

头歌2.1 Hadoop 开发环境搭建及HDFS初体验（第2关：配置开发环境 - Hadoop安装与伪分布式集群搭建）

第2关：配置开发环境 - Hadoop安装与伪分布式集群搭建第3关：HDFS系统初体验

overfit同步小助手 2023-09-17 22:04:10 0 收藏

HDFS源码解析

HDFS NameNode、DataNode启动流程、HDFS元数据管理流程、写数据流程源码详解

overfit同步小助手 2023-09-17 22:03:59 0 收藏

Python+大数据-知行教育(七)-学生出勤主题看板

overfit同步小助手 2023-09-17 22:03:53 0 收藏