大数据 - overfit.cn

Oracle mysql 达梦大金仓 hive 区别

Oracle数据库：MySQL数据库：达梦数据库：大金仓数据库：Hive数据库：相同点：不同点：sql区别：

overfit同步小助手 2024-02-16 17:03:26 0 收藏

分布式消息服务kafka

分布式消息队列(kafka)

overfit同步小助手 2024-02-16 16:03:56 0 收藏

数据挖掘的开源项目与社区：从Scikitlearn到Apache Flink

1.背景介绍数据挖掘是指通过对大量数据进行挖掘和分析，从中发现隐藏的模式、规律和知识的过程。随着数据的增长和复杂性，数据挖掘技术也不断发展和进步。开源项目和社区在这一领域发挥着重要作用，提供了许多高质量的工具和资源。本文将从Scikit-learn到Apache Flink，逐一介绍一些重要的开源项

overfit同步小助手 2024-02-16 16:03:49 0 收藏

如何在 Ubuntu VPS 上使用 Celery 与 RabbitMQ 来做队列

异步或非阻塞处理是一种将某些任务的执行与程序的主要流程分离的方法。这为您提供了几个优势，包括允许用户界面代码在没有中断的情况下运行。消息传递是程序组件用来通信和交换信息的一种方法。它可以同步或异步实现，并且可以允许离散进程进行无问题的通信。消息传递通常作为传统数据库的替代实现，因为消息队列通常实现了

overfit同步小助手 2024-02-16 16:03:45 0 收藏

linux 安装并配置rabbitmq

linux安装并配置rabbitmq高可用

overfit同步小助手 2024-02-16 15:03:51 0 收藏

Flink 与 Apache Kafka 的完美结合

1.背景介绍大数据时代，数据处理能力成为了企业竞争的核心。随着数据规模的不断增长，传统的数据处理技术已经无法满足企业的需求。为了更好地处理大规模数据，Apache Flink 和 Apache Kafka 等流处理框架和消息队列系统发展迅速。Apache Flink 是一个流处理框架，可以实时处理大

overfit同步小助手 2024-02-16 13:04:06 0 收藏

Flink-容错机制checkpoint

随时存档”确实恢复起来方便，可是需要我们不停地做存档操作。如果每处理一条数据就进行检查点的保存，当大量数据同时到来时，就会耗费很多资源来频繁做检查点，数据处理的速度就会受到影响。所以在Flink中，检查点的保存是周期性触发的，间隔时间可以进行设置。

overfit同步小助手 2024-02-16 11:03:54 0 收藏

Kafka本地安装⭐️(Windows)并测试生产消息以及消费消息的可用性

2023.12.17 天气晴温度较低一、 kafka简介Kafka 是一个分布式的流处理平台，由 LinkedIn 公司开发。它是一种高吞吐量、低延迟的消息传递系统，主要用于处理实时数据流和日志数据。Kafka 是一个基于发布-订阅（publish-subscribe）的模

overfit同步小助手 2024-02-16 11:03:51 0 收藏

Hive实战：实现数据去重

在本次实战任务中，我们利用Hive大数据处理框架对三个文本文件（ips01.txt、ips02.txt、ips03.txt）中的IP地址进行了整合与去重。首先，在虚拟机上创建了这三个文本文件，并将它们上传至HDFS的/deduplicate/input目录下作为原始数据源。接着，启动了Hive Me

overfit同步小助手 2024-02-16 11:03:33 0 收藏

Hadoop-Yarn-ResourceManagerHA

在Hadoop2.4之前，ResourceManager是YARN集群中的单点故障ResourceManager HA是通过 Active/Standby 体系结构实现的，在任何时候其中一个RM都是活动的，并且一个或多个RM处于备用模式，等待在活动发生任何事情时接管。1、判断配置文件中是否配置了HA

overfit同步小助手 2024-02-16 11:03:16 0 收藏

Flink 源码学习｜Watermark 与 WatermarkGenerator

当数据源中消息的事件时间单调递增时，当前事件时间（同时也是最大事件时间）就可以充当 watermark，因为后续到达的消息的事件时间一定不会比当前事件时间小。当输入数据流中消息的事件时间不完全有序，但是对于绝大部分元素，滞后时间通常不会超过一个固定的时间长度时，我们可以通过在当前最大事件时间的基础上

overfit同步小助手 2024-02-16 10:03:53 0 收藏

Kafka

Kafka的分区策略主要分为两种，一种是生产者分区策略，另一种是消费者分区策略。对于生产者分区策略，Kafka提供了默认的分区策略，同时也支持用户自定义分区策略。生产者将消息发送到哪个分区的决策过程主要由这个策略决定。对于消费者分区策略，Kafka同样提供了三种选择：RangeAssignor、Ro

overfit同步小助手 2024-02-16 10:03:37 0 收藏

【大数据Hive】hive 表设计常用优化策略

hive表常用优化策略

overfit同步小助手 2024-02-16 10:03:22 0 收藏

华为认证大数据工程师（HCIA-Big Data）--练习题

1、表引擎在ClickHouse中的作用十分关键，MergeTree系列引擎中，( ReplacingMergeTree )引擎适合于清除重复数据节省存储空间，但是它不保证重复数据不出现，一般不建议使用。4、MRS集群创建在（VPC）的子网内，通过逻辑方式进行网络隔离，为用户的MRS集群提供安全、隔

overfit同步小助手 2024-02-16 09:03:46 0 收藏

大数据的计算机学习与预测分析

1.背景介绍大数据是指由于互联网、社交媒体、移动互联网等新兴技术的兴起，数据量大、增长迅速、多样化、实时性强的数据集。大数据的涌现，为计算机学习和预测分析提供了广阔的舞台。计算机学习是一种通过计算机程序自主地学习、自适应地改进的科学，其核心是学习算法。预测分析是利用数据挖掘、数据分析、统计学、人工智

overfit同步小助手 2024-02-16 07:03:53 0 收藏

“深入理解RabbitMQ交换机的原理与应用“

RabbitMQ是一个开源的消息代理软件，它遵循AMQP（高级消息队列协议）标准，用于在分布式系统中存储和转发消息。作为消息中间件，RabbitMQ扮演着消息传递和消息队列的角色，允许应用程序之间进行异步通信。RabbitMQ交换机作为消息中间件的核心组件，其灵活的路由规则和丰富的特性为分布式系统和

overfit同步小助手 2024-02-16 07:03:41 0 收藏

Flink实时物联网数据处理

1.背景介绍物联网(Internet of Things, IoT)是一种通过互联网将物体和物体、物体和人、人与人之间进行信息交换和传输的新兴技术。物联网的发展为各行业带来了巨大的变革，特别是在实时数据处理和分析方面，物联网为我们提供了大量的实时数据，这些数据在很多场景下具有极高的价值。实时数据处理

overfit同步小助手 2024-02-16 07:03:35 0 收藏

CentOS7部署Kafka

指定了kafka所连接的zookeeper服务地址。指定了连接kafka集群的地址。2.安装zookeeper。：指定了所要创建主题的名称。指定了消费端订阅的主题。配置详解（与部署无关）1.安装jdk1.8。：创建主题的动作指令。

overfit同步小助手 2024-02-16 06:03:36 0 收藏

Kafka零拷贝技术与传统数据复制次数比较

overfit同步小助手 2024-02-16 06:03:26 0 收藏

批量下降法与随机下降法在大数据环境中的应用

1.背景介绍大数据是指数据的规模、速度和复杂性超过传统数据处理技术能够处理的数据集。随着互联网、移动互联网、社交网络等产生和发展，大数据已经成为当今世界各个领域的重要资源。大数据的应用范围广泛，包括金融、医疗、教育、科研、政府、物流等各个领域。在大数据环境中，传统的优化算法往往无法满足实际需求，因为

overfit同步小助手 2024-02-16 05:03:44 0 收藏