大数据 - overfit.cn

【Flink网络通讯（一）】Flink RPC框架的整体设计

overfit同步小助手 2024-02-27 06:04:00 0 收藏

Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-05）

Spark的任务调度是指Spark集群中的任务如何被调度和执行。Spark的任务调度主要基于两个概念：DAG和RDD。DAG是有向无环图（Directed Acyclic Graph）的简称，用来描述Spark作业中的任务依赖关系。在Spark中，作业被划分为多个阶段（Stage），每个阶段包含一组

overfit同步小助手 2024-02-27 06:03:52 0 收藏

C#系列-C#访问MongoDB+redis+kafka（7）

使用查询过滤器Builders.Filter.Empty来查询集合中的所有文档，并将它们打印到控制台。我们创建了一个BsonDocument（MongoDB C#/.NET Driver中的动态文档类型），并将其插入到集合中。现在您可以使用db对象执行各种Redis命令，如设置值、获取值、删除键等。

overfit同步小助手 2024-02-27 06:03:40 0 收藏

FlinkCDC详解

flink的cdc详解

overfit同步小助手 2024-02-27 06:03:34 0 收藏

Hadoop

namenode是知道所有文件的块列表以及块列表的位置的，比如这个文件有3个块 1，2，3，分别在datanode1 datanode2 datanode3的位置上。当datanode启动的时候，会告诉namenode，说：“大哥，我启动了”，然后将自己负责的文件的块列表，也就是自己管理了哪些文件的

overfit同步小助手 2024-02-27 05:03:49 0 收藏

2024.2.10 HCIA - Big Data笔记

MRS提供租户完全可控的一站式企业级大数据集群云服务,完全兼容开源接口,结合华为云计算,存储优势及大数据行业经验,为客户提供高性能,低成本,灵活易用的全栈大数据平台,为客户提供高性能、低成本、灵活易用的全栈大数据平台，轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件，

overfit同步小助手 2024-02-27 05:03:40 0 收藏

JAVA操作Rabbitmq-原理讲的很详细

这是转自稀土掘金，详细介绍Rabbitmq的文章，代码都用JAVA实现，值得收藏

overfit同步小助手 2024-02-27 04:03:40 0 收藏

springboot整合RabbitMQ,RabbitMQ实现高级特性消息不丢失

RabbitMq保证消息不丢失

overfit同步小助手 2024-02-27 02:03:48 0 收藏

大数据学习之Flink算子、了解DataStream API（基础篇一）

注：本文只涉及DataStream。

overfit同步小助手 2024-02-27 02:03:35 0 收藏

Python调用pyspark报错整理

Pycharm配置了SSH服务器和Anaconda的python解释器，如果没有配置可参考。

overfit同步小助手 2024-02-27 02:03:11 0 收藏

Linux安装zookeeper&kafka

此文基于debian12，centos也适用因为zookeeper依赖jdk环境预先安装好jdk。

overfit同步小助手 2024-02-27 01:03:56 0 收藏

Flink中ExecutionGraph的构建

在JobGraph向ExecutionGraph转化的过程中，主要的工作内容根据Operator的并行度来拆分JobVertext,每一个Jobvertex根据自身并行度会拆分成多个ExecutionVertex,使用IntermediateResultPartition对象来接收Execution

overfit同步小助手 2024-02-27 01:03:40 0 收藏

flink1.18.0 sql-client报错

【代码】flink1.18.0 sql-client报错。

overfit同步小助手 2024-02-27 00:03:30 0 收藏

Spark编程实验六：Spark机器学习库MLlib编程

通过Spark机器学习库MLlib编程实验掌握基本的MLLib编程方法；掌握用MLLib解决一些常见的数据分析问题，包括数据导入、成分分析和分类和预测等。

overfit同步小助手 2024-02-27 00:03:24 0 收藏

SQL、Hive中的SQL和Spark中的SQL三者联系与区别

SQL、Hive中的SQL和Spark中的SQL（即SparkSQL）都是用于处理和分析数据的查询语言，但它们在实现、性能、应用场景等方面存在一些明显的区别和联系。总结来说，SQL、Hive中的SQL和Spark中的SQL都是用于处理和分析数据的查询语言，但它们在实现、性能、应用场景等方面存在一些差

overfit同步小助手 2024-02-26 23:03:46 0 收藏

Flink的SQL开发

Table API和SQL是最上层的API，在Flink中这两种API被集成在一起，SQL执行的对象也是Flink中的表（Table），所以我们一般会认为它们是一体的。Flink是批流统一的处理框架，无论是批处理（DataSet API）还是流处理（DataStream API），在上层应用中都可以

overfit同步小助手 2024-02-26 22:03:39 0 收藏

SQL Hive是一个基于Hadoop的数据仓库工具，它提供了类似于SQL的查询语言，用于处理大规模的结构化数据

Hive的数据模型是基于表的，用户可以通过Hive的DDL语句来创建表，并通过Hive的DML语句来插入、更新和删除数据。Hive是一个基于Hadoop的数据仓库工具，它提供了一种类似于SQL的查询语言，称为HiveQL，用于处理和分析大规模的结构化数据。总结来说，Hive的数据模型是基于表的，支持

overfit同步小助手 2024-02-26 21:03:44 0 收藏

微服务架构师封神之路13-RabbitMQ集群与高可用|RabbitMQ clustering and HA

本文利用一台Linux示范三节点RabbitMQ高可用集群。涉及消息跨节点复制Queue replicas，队列领导者策略配置Queue leader location strategy。并包括了详细的配置文件细节。

overfit同步小助手 2024-02-26 20:03:48 0 收藏

Flink CDC 实时抽取 Oracle 数据-排错&调优

Flink CDC 于 2021 年 11 月 15 日发布了最新版本 2.1，该版本通过引入内置 Debezium 组件，增加了对 Oracle 的支持。对该版本进行试用并成功实现了对 Oracle 的实时数据捕获以及性能调优，现将试用过程中的一些关键细节进行分享。

overfit同步小助手 2024-02-26 19:03:20 0 收藏

深入理解 Flink（七）Flink Slot 管理详解

Flink 的 slot 管理分为 ResourceManager、TaskExecutor、JobMaster 3 个部分，本章节结合 Flink 源码对上述 3 个部分的协作关系、具体实现进行了深入剖析。

overfit同步小助手 2024-02-26 18:03:54 0 收藏