大数据 - overfit.cn

HBase的数据批量操作与事务处理

1.背景介绍HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase具有高可用性、高可扩展性和高性能等特点，适用于大规模数据存储和实时数据处理。在大数据

overfit同步小助手 2024-02-05 18:03:38 0 收藏

Kafka用法总结

Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。

overfit同步小助手 2024-02-05 17:03:59 0 收藏

【hive】- 使用insert into/insert overwrite插入数据到静态分区、动态分区、动静态分区

使用insert into/insert overwrite插入数据到静态分区、动态分区、动静态分区

overfit同步小助手 2024-02-05 16:03:24 0 收藏

Flink 的 Checkpoint配置详解

Flink 的 Checkpoint 配置详解

overfit同步小助手 2024-02-05 15:03:45 0 收藏

HBase表结构

HBase是非关系型数据库，是高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。

overfit同步小助手 2024-02-05 15:03:20 0 收藏

Flink问题解决及性能调优-【Flink rocksDB读写state大对象导致背压问题调优】

RocksDB是Flink中用于持久化状态的默认后端，它提供了高性能和可靠的状态存储。然而，当处理大型状态并频繁读写时，可能会导致背压问题，因为RocksDB需要从磁盘读取和写入数据，而这可能成为瓶颈。

overfit同步小助手 2024-02-05 14:03:44 0 收藏

【极数系列】Flink详细入门教程 & 知识体系 & 学习路线（01）

【极数系列】Flink详细入门教程 & 知识体系 & 学习路线（01），旨在帮助读者快速了解flink框架知识架构以及后续的学习路线

overfit同步小助手 2024-02-05 13:03:43 0 收藏

Flink与ApacheHive的集成

1.背景介绍1. 背景介绍Apache Flink 和 Apache Hive 都是流处理和大数据处理领域的重要技术。Flink 是一个流处理框架，用于实时处理大量数据，而 Hive 是一个基于 Hadoop 的数据仓库系统，用于批处理和分析大数据。在现实应用中，这两个技术经常被结合使用，以充分发挥

overfit同步小助手 2024-02-05 13:03:34 0 收藏

大数据和社交网络：数据挖掘与分析

1.背景介绍大数据和社交网络是当今互联网发展的重要领域之一，它们为我们提供了丰富的数据源和挖掘价值的空间。在这篇文章中，我们将深入探讨大数据和社交网络的相关概念、核心算法、应用实例以及未来发展趋势。1.1 大数据的概念与特点大数据是指通过各种途径收集到的海量、多样化、高速增长的数据。大数据具有以下特

overfit同步小助手 2024-02-05 13:03:21 0 收藏

大数据毕设分享基于机器视觉的人体姿态行为识别

今天学长向大家分享一个毕业设计项目毕业设计基于机器视觉的人体姿态行为识别毕业设计深度学习人体姿势姿态识别1、人体姿态估计简介人体姿态估计（Human Posture Estimation），是通过将图片中已检测到的人体关键点正确的联系起来，从而估计人体姿态。人体关键点通常对应人体上有一定自由度的

overfit同步小助手 2024-02-05 12:03:27 0 收藏

Flink（十二）【容错机制】

Flink 容错机制

overfit同步小助手 2024-02-05 11:03:37 0 收藏

使用Flink CDC从数据库采集数据，保证数据不丢失：实现断点续传机制

Flink CDC是Flink提供的一个用于捕获数据库变更的组件。它能够监视数据库中的更改操作，并将这些变更以流的形式传递给Flink应用程序进行处理。通过使用Flink CDC，我们可以实现实时的数据库数据同步和实时的数据分析。

overfit同步小助手 2024-02-05 10:03:31 0 收藏

一文了解数据库，数据仓库，数据湖，数据集市，数据湖仓

数据库，数据仓库，数据湖，数据集市，数据湖仓的相同点和区别。

overfit同步小助手 2024-02-05 09:03:39 0 收藏

大数据实验报告英汉对照版（Hadoop安装与配置）

本实验的主要目的是通过在Docker容器中部署Hadoop集群来验证Hadoop对HDFS(分布式文件系统)和MapReduce的支持。通过这个实验，我们的目的是深入了解Hadoop的配置、启动和验证过程，以及Hadoop集群在分布式环境下的工作方式。

overfit同步小助手 2024-02-05 09:03:35 0 收藏

RabbitMQ之交换机

在RabbitMQ工作流程有一项叫在中生产者发送的信息不会直接投递到队列中，而是先将消息投递到交换机中，在由交换机路由到一个或多个队列中。

overfit同步小助手 2024-02-05 09:03:26 0 收藏

【RabbitMQ 实战】10 消息持久化和存储原理

交换器、队列、消息都可以设置是否持久化。交换器和队列持久化的含义是元数据持久化。消息持久化的含义是消息本身持久化。将交换器、队列、消息都设置了持久化之后能百分之百保证数据不丢失吗？答案是不能从消费者来说，如果在订阅消费队列时将 autoAck 参数设置为 true，那么当消费者接收到相关消息之后，还

overfit同步小助手 2024-02-05 09:03:12 0 收藏

玩转大数据10：深度学习与神经网络在大数据中的应用

深度学习和神经网络在大数据中的应用已经成为当今人工智能领域的热点问题。它们具有处理大规模数据、提取特征和提高预测精度等优势，被广泛应用于图像识别、语音识别、自然语言处理、推荐系统和金融风控等领域。随着技术的不断发展和应用场景的不断扩大，深度学习和神经网络在大数据中的应用将会更加广泛和深入。同时，我们

overfit同步小助手 2024-02-05 08:03:54 0 收藏

Iceberg从入门到精通系列之二十三：Spark查询

要在 Spark 中使用 Iceberg，请首先配置 Spark 目录。Iceberg 使用 Apache Spark 的 DataSourceV2 API 来实现数据源和目录。

overfit同步小助手 2024-02-05 08:03:51 0 收藏

Flink：快速掌握批处理数据源的创建方法

本文收集了实现领域的反馈，因为javadoc无法涵盖高性能和可维护源的所有实现细节。希望你喜欢这篇文章，并且它给了你为Flink项目贡献一个新连接器的愿望!Flink：快速掌握批处理数据源的创建方法。

overfit同步小助手 2024-02-05 07:03:27 0 收藏

RocketMQ和Kafka的区别，以及如何保证消息不丢失和重复消费

4）unclean.leader.election.enable = false 当leader副本发生故障时不会从followers副本中和leader副本同步程度达不到要求的副本中选出leader，降低了消息丢失的可能性。但是这样也会带来重复消费的情况，比如，消费了一半还没提交offset突然挂

overfit同步小助手 2024-02-05 07:03:18 0 收藏