大数据 - overfit.cn

Elasticsearch集成之（Spring Data Elasticsearch）

Spring Data 是一个用于简化数据库、非关系型数据库、索引库访问，并支持云服务的开源框架。其主要目标是使得对数据的访问变得方便快捷，并支持 map-reduce 框架和云计算数据服务。Spring Data 可以极大的简化 JPA（Elasticsearch…）的写法，可以在几乎不用写实现的

overfit同步小助手 2023-08-30 04:04:09 0 收藏

Hbase-热点问题（数据存储倾斜问题）

某一台regionserver消耗过多，承受过多的并发量，时间长机器性能下降，甚至宕机。

overfit同步小助手 2023-08-30 01:04:17 0 收藏

Flink 数据集成服务在小红书的降本增效实践

实时引擎研发工程师袁奎，在 Flink Forward Asia 2022 数据集成专场的分享。

overfit同步小助手 2023-08-30 01:04:09 0 收藏

Arthas协助MQ消费性能优化

因为本次压测是在测试数据库，所以数据库本身不稳定，虽然定位到了这个性能瓶颈，对消费逻辑优化帮助不大，需要更精准的评估线上数据库的性能。但是通过monitor命令长时间观察doUpdateCoin方法的执行情况，发现大部分时间平均RT其实是比较低的，所以不应该是单次请求慢而降低了总体的消费TPS。可能

overfit同步小助手 2023-08-29 23:05:03 0 收藏

flink cdc环境搭建

overfit同步小助手 2023-08-29 23:04:08 0 收藏

大数据基础知识

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。灵活的可扩展性灵活的数据模型与云计算紧密融合现在已经有很多公司使用了NoSQL数据库：GoogleFacebookMozillaAdobeFoursquareLinkedInDigg百度、腾讯、阿里、新浪、华为……Spa

overfit同步小助手 2023-08-29 19:04:21 0 收藏

Flink 检查点配置

当有界数据 , 部分Task 完成 , Flink 1.14 后 , 它们依然能进行检查点。检查点存储 (CheckpointStorage) : 持久化存储位置。Rocksdb 状态后端 : 启用增量 checkpoint。

overfit同步小助手 2023-08-29 18:04:34 0 收藏

Seatunnel 2.1.3 源码打包、编译运行

记录一下：Seatunnel源码修改之后，本地编译打包执行，中间遇到的问题。

overfit同步小助手 2023-08-29 17:04:43 0 收藏

Flink 火焰图

Flink 作业动态参数里增加配置：“rest.flamegraph.enabled”: “true” 并重启作业。当前该功能没有默认开启，因为这个功能使用时对性能有少量损耗，特别是对于并行度比较大的作业。第五步在 Flink WebUI JM/TM 的 Log List 页面中找到火焰图文件并下

overfit同步小助手 2023-08-29 16:04:25 0 收藏

Spark 图计算ONEID 进阶版

Oneid的生成

overfit同步小助手 2023-08-29 09:04:07 0 收藏

HDFS写流程源码分析（一）-客户端

环境为hadoop 3.1.3。

overfit同步小助手 2023-08-29 07:04:12 0 收藏

大数据扫盲(1): 数据仓库与ETL的关系及ETL工具推荐

在数字化时代，数据成为了企业决策的关键支持。然而，随着数据不断增长，有效地管理和利用这些数据变得至关重要。数据仓库和ETL工具作为数据管理和分析的核心，将帮助企业从庞杂的数据中提取有价值信息。

overfit同步小助手 2023-08-29 06:04:15 0 收藏

HDFS读写流程

NameNode将位置信息返回给客户端：NameNode接收到客户端的请求后，会返回该文件所在的DataNode节点的IP地址和块ID等信息。客户端向NameNode请求文件的位置：客户端想要访问一个文件时，会向NameNode发送一个请求，要求获取该文件在HDFS上的位置信息。DataNode返回

overfit同步小助手 2023-08-29 02:03:40 0 收藏

LSM(Log-Structured Merge Tree)

LSM Tree全称日志结构合并树（Log-Structured Merge Tree）。BigTable的理论模型，在面临海量数据存入是能展现出比B+ Tree更快的存储速度，其存储架构设计在机械盘时代大放异彩。

overfit同步小助手 2023-08-29 01:03:58 0 收藏

清空kafka数据

kafka 清理

overfit同步小助手 2023-08-28 21:04:08 0 收藏

大数据Flink（六十一）：Flink流处理程序流程和项目准备

下进行安装，这时候我们自动就是启动的PlaygroundEnv环境，在安装的过程中你也可以看到。我们可以手工安装PyFlink，直接在PyCharm的。有了这些信息我们就可以进行PyFlink的作业开发了。本地环境安装的Python3.8版本。先利用PyCharm创建项目，名为。创建之后，我们会看到

overfit同步小助手 2023-08-28 21:04:00 0 收藏

centos7设置elasticsearch开机自启动

如果启动失败先尝试杀死原有的elasticsearch进程。

overfit同步小助手 2023-08-28 19:04:03 0 收藏

大数据：AI大模型对数据分析领域的颠覆（文末送书）

AI大模型正在成为数据分析领域的颠覆者，改变我们对数据分析的认知和方式。通过自然语言对话，普通人可以轻松地进行数据分析，无需编写复杂的代码。这一技术的出现有望缩小技术鸿沟，让更多人能够参与到数据驱动的决策中来。

overfit同步小助手 2023-08-28 17:04:31 0 收藏

Mysql大数据批量插入方法

在处理大量数据时，如果一条一条地插入会极大地影响效率，因此批量插入是一个更好的选择，可以大大提高数据的处理速度。下面介绍几种MySQL大数据批量插入的方法。

overfit同步小助手 2023-08-28 17:03:58 0 收藏

关于kafka安装使用qqf

kafka的学习和使用，会更新使用java链接kafka这些

overfit同步小助手 2023-08-28 10:04:28 0 收藏