大数据 - overfit.cn

【ElasticSearch8.X】学习笔记（一）

8.x与7.x的对比、安装elk8.x、Kibana 安装

overfit同步小助手 2024-02-10 12:03:42 0 收藏

【大数据】Flink SQL 语法篇（三）：窗口聚合（TUMBLE、HOP、SESSION、CUMULATE）

滚动窗口将每个元素指定给指定窗口大小的窗口。滚动窗口具有固定大小，且不重叠。例如，指定一个大小为 5 分钟的滚动窗口。在这种情况下，Flink 将每隔 5 分钟开启一个新的窗口，其中每一条数都会划分到唯一的一个 5 分钟的窗口中。

overfit同步小助手 2024-02-10 11:03:29 0 收藏

RabbitMQ——死信队列介绍和项目应用

RabbitMQ——死信队列介绍和项目应用。如果你不还不了解死信队列，或者不知道其在项目中的应用的话，看完我的文章你一定会有所收获。

overfit同步小助手 2024-02-10 10:03:48 0 收藏

【大数据OLAP引擎】StarRocks为什么快？

StarRocks最初主要的优势是性能，当时在单表查询方面与性能标杆ClickHouse不相上下，而join优化特性使其在多表关联查询场景下的性能表现要远远优于ClickHouse，替换ClickHouse自然也就成了StarRocks的第一个目标。而StarRocks的野心不止于此，后来又进一步发

overfit同步小助手 2024-02-10 10:03:45 0 收藏

大数据毕设分享基于大数据的抖音短视频数据分析与可视化 - python 大数据可视化

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于大数据的抖音短视频数据分析与可视化🥇

overfit同步小助手 2024-02-10 10:03:42 0 收藏

基于scala使用flink将kafka数据写入mysql示例

创建与MySQL连接方法的类。指定kafka数据并显示。设置flink流处理环境。从kafka源创建数据流。

overfit同步小助手 2024-02-10 10:03:12 0 收藏

Elcomsoft 取证工具包系列：Advanced Archive Password Recovery

闯入受密码保护的 ZIP、7Zip 和 RAR 存档！彻底的低级优化有助于更快地完成工作。保证在一小时内恢复某些类型的归档文件。支持：ZIP/PKZip/WinZip、7Zip、RAR/WinRAR、ARJ/WinARJ、ACE/WinACE （1.x）、AES 加密、自解压存档、字典和暴力攻击。

overfit同步小助手 2024-02-10 09:03:52 0 收藏

【Flink-1.17-教程】-【一】Flink概述、Flink快速入门

对于Flink而言，流才是整个处理逻辑的底层核心，所以流批统一之后的 DataStream API 更加强大，可以直接处理批处理和流处理的所有场景。下面我们就针对不同类型的输入数据源，用具体的代码来实现流处理。Flink 还具有一个类型提取系统，可以分析函数的输入和返回类型，自动获取类型信息，从而获

overfit同步小助手 2024-02-10 09:03:47 0 收藏

zookeeper

分部式系统管理框架，主要来解决分布式应用集群中应用系统的一致性问题：相当于各种分布式应用的注册中心+文件系统+通知机制用于注册各种分布式应用，存储和管理这些分布式应用的元数据，如果应用或服务本身状态发送变化就会通知客户端。

overfit同步小助手 2024-02-10 08:03:23 0 收藏

使用JavaApi获取Kafka的topic、topic的分区数量与副本数量

使用JavaApi获取Kafka的topic、topic的分区数量与副本数量。

overfit同步小助手 2024-02-10 07:03:47 0 收藏

【Flink】Flink任务缺失Jobmanager日志的问题排查

问题不是大问题，不是什么代码级别的高深问题，也没有影响任务运行，纯粹因为人员粗心导致，记录一下排查的过程。

overfit同步小助手 2024-02-10 04:03:48 0 收藏

赵鹏举：我的大数据能力提升之路 | 提升之路系列（四）

导读为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、

overfit同步小助手 2024-02-10 04:03:11 0 收藏

Spark on Yarn安装配置

步骤1：复制和解压Spark安装包解压文件：将Spark安装包解压到/opt/module目录中。

overfit同步小助手 2024-02-10 03:03:48 0 收藏

数据仓库【数据治理】

数据治理是要贯穿整个数据仓库的设计开发全流程的，数据治理也不是能一步到位的，在我们不断对业务了解、数据了解、需求了解后，不断的优化迭代，设计开发出适合自己业务的数据仓库才是最好的。数据治理是一个不断雕刻的过程，有点类似代码重构，只有不断的将数据跟业务融合，才能不断的提升数据服务，体现数据仓库价值。

overfit同步小助手 2024-02-10 01:03:44 0 收藏

centos7 安装部署kafka

kafka 在centos7的单机部署，基本操作

overfit同步小助手 2024-02-10 01:03:37 0 收藏

Windows中Zookeeper与kafka的安装配置

直接在官网下载即可。下载后直接解压到本地即可。

overfit同步小助手 2024-02-10 00:03:39 0 收藏

一文了解数据库vs数据仓库vs数据湖

在实际工作中，我们应该如何选择使用OLTP数据库还是OLAP数据仓库还是数据湖呢？有些同学会追求时髦前沿技术，不管业务需求是什么样的，直接就上数据湖架构，这样其实是一种不负责任的表现，单纯的以自己实践为主，业务需求为次的行为。这时候就需要架构师来评估具体业务的场景以及未来发展（2-3年）来看，最适合

overfit同步小助手 2024-02-10 00:03:12 0 收藏

阿里云 Flink 原理分析与应用：深入探索 MongoDB Schema Inference

本文整理自阿里云 Flink 团队归源老师关于阿里云 Flink 原理分析与应用：深入探索 MongoDB Schema Inference 的研究。

overfit同步小助手 2024-02-09 23:03:48 0 收藏

Kafka-服务端-GroupMetadataManager

consumer_offsets的某Partition记录某consumerGroup的GroupMotadata消息记录某ConsumerGroup对Partition的offset消息记录某ConsumerGroup对Partition1的offset消费记录某ConsumerGroup的Par

overfit同步小助手 2024-02-09 22:03:52 0 收藏

开源、云原生且实时分析型的现代数据仓库DataBend的介绍，及其与其它开源文件存储的结合使用实例

Databend 是一个开源、云原生且实时分析型的现代数据仓库，旨在提供高效的数据存储和处理能力。它采用 Rust 语言开发，并支持 Apache Arrow 格式以实现高性能列式存储与查询处理。

overfit同步小助手 2024-02-09 22:03:37 0 收藏