大数据 - overfit.cn

Hadoop学习总结（使用Java API操作HDFS）

使用HDFS提供的Java API构造一个访问客户端对象，然后通过客户端对象对HDFS上的文件进行操作（增、删、改、查）。

overfit同步小助手 2024-02-29 01:03:50 0 收藏

【手写数据库toadb】toadb物理存储模型，数据库物理存储原理，物理文件组织关系以及行列混合模型存储结构

我们的目标是手写一款数据库内核，希望提升我们对数据库机制的认识，同时也能提升我们编码能力，对编程语言的灵活应用，了解实际应用中的技巧，正所谓从书中来，到实践中去。数据库内核听起来很高升啊，大家千万不要被这个吓到，以为自己不适合，其实我们只是做一个基本架构，并不是面面俱到，只要是学会了C语言就可以跟本

overfit同步小助手 2024-02-29 01:03:43 0 收藏

RocketMQ与Kafka深度对比：特性与适用场景解析

在分布式系统中，消息队列作为解耦、缓冲和异步通信的关键组件，其选择对于系统的性能和稳定性至关重要。本文将详细对比RocketMQ与Kafka在数据可靠性、实时性、队列数与性能、消息顺序性、适用场景等方面的差异，帮助读者根据实际需求做出更明智的选择。而对于处理海量数据流的场景，Kafka则更具优势。这

overfit同步小助手 2024-02-29 01:03:30 0 收藏

大数据搭建

例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

overfit同步小助手 2024-02-29 00:03:26 0 收藏

Flink的窗口操作及其应用场景

1.背景介绍Flink的窗口操作及其应用场景作者：禅与计算机程序设计艺术1. 背景介绍1.1 Streaming 数据处理Streaming 数据处理是当今许多应用程序所需要的一个重要功能。Streaming 数据指的是持续的、高速的数据流，如传感器数据、网络日志、交易记录等。随着互联网的普及和物联

overfit同步小助手 2024-02-28 23:03:47 0 收藏

大数据 - Spark系列《八》- 闭包引用

本文将深入探讨闭包引用的原理和应用。首先，我们将介绍闭包引用的概念及其副本的形成机制。随后，通过两个实例代码演示闭包引用在 Spark 中的具体应用场景。接下来，我们将讨论使用 Source.fromFile 和 sc.textFile 两种方法读取数据的差异和适用场景。最后，我们会总结闭包引用的注

overfit同步小助手 2024-02-28 23:03:21 0 收藏

消息队列-RabbitMQ：死信队列

为了保证订单业务的消息数据不丢失，需要使用到 RabbitMQ 的死信队列机制，当消息消费发生异常时，将消息投入死信队列中。还有比如说：用户在商城下单成功并点击去支付后在指定时间未支付时自动失效。死信的来源：消息 TTL 过期：TTL 是 Time To Live 的缩写，也就是生存时间。队列达到最

overfit同步小助手 2024-02-28 22:03:49 0 收藏

HiveSQL——共同使用ip的用户检测问题【自关联问题】

overfit同步小助手 2024-02-28 22:03:44 0 收藏

【Docker】docker常用命令

码头工人。

overfit同步小助手 2024-02-28 21:03:45 0 收藏

实时Flink的检查点与恢复机制

1.背景介绍在大规模数据处理系统中，实时性能是至关重要的。Apache Flink是一个流处理框架，可以处理大量实时数据，并提供高性能和低延迟的数据处理能力。为了确保系统的可靠性和容错性，Flink提供了检查点(Checkpoint)和恢复机制。本文将深入探讨Flink的检查点与恢复机制，揭示其核心

overfit同步小助手 2024-02-28 19:03:51 0 收藏

RabbitMQ-消息队列：发布确认高级

在生产环境中由于一些不明原因，导致 RabbitMQ 重启，在 RabbitMQ 重启期间生产者消息投递失败，导致消息丢失，需要手动处理和恢复。于是，我们开始思考，如何才能进行 RabbitMQ 的消息可靠投递呢

overfit同步小助手 2024-02-28 19:03:40 0 收藏

Hadoop-Yarn-NodeManager如何计算Linux系统上的资源信息

Hadoop-Yarn-NodeManager都做了什么>中讲节点资源监控服务（NodeResourceMonitorImpl）时只是提了下SysInfoLinux，下面我们展开讲下SysInfoLinux是用于计算Linux系统上的资源信息的插件。

overfit同步小助手 2024-02-28 19:03:23 0 收藏

Zookeeper

环境准备:1. 三台虚拟机都需要安装: Zookeeper环境, 这个不用做了, 我给你装好了.2. 三台虚拟机都要配置path环境变量, 这个我没做, 需要你手动做.3. 分别在三台虚拟机中启动, 并查看 Zookeeper节点信息即可.zkServer.sh start | status | s

overfit同步小助手 2024-02-28 18:03:45 0 收藏

Hadoop的介绍与安装

HDFS是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。MapReduce是一个分布式计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计

overfit同步小助手 2024-02-28 18:03:38 0 收藏

如何使用 Java 发送消息到 RabbitMQ 中的队列

RabbitMQ是一个强大的消息队列中间件，可以实现高效的消息传递和解耦。在实际应用中，我们还可以使用更多高级特性，如消息持久化、消息确认机制、消息路由策略等，以满足复杂的业务需求。本文将介绍如何在Spring Boot应用程序中集成RabbitMQ，并实现一个简单的消息发送和接收的示例。

overfit同步小助手 2024-02-28 18:03:34 0 收藏

大数据技术之 Kafka

大数据技术之 Kafka文章目录大数据技术之 Kafka第 1 章 Kafka 概述1.1 定义1.2 消息队列1.2.1 传统消息队列的应用场景1.2.2 消息队列的两种模式1.3 Kafka 基础架构第 2 章 Kafka 快速入门2.1 安装部署2.1.1 集群规划2.1.2 集群部署2.1.

overfit同步小助手 2024-02-28 18:03:31 0 收藏

Hadoop的任务调度与资源管理

1.背景介绍Hadoop是一个分布式文件系统和分布式计算框架，由Google的MapReduce和Google File System(GFS)技术启发。Hadoop的核心组件有HDFS(Hadoop Distributed File System)和MapReduce。Hadoop的任务调度与资源

overfit同步小助手 2024-02-28 17:04:03 0 收藏

【大数据毕设选题】基于情感分析的网络舆情热点分析系统

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是🚩基于情感分析的网络舆情热点分析系统🥇学长

overfit同步小助手 2024-02-28 17:03:56 0 收藏

【大数据】Flink 内存管理（一）：设置 Flink 进程内存

Apache Flink 通过严格控制各种组件的内存使用，在 JVM 上提供高效的工作负载。虽然社区努力为所有配置提供合理的默认值，但用户在 Flink 上部署的应用程序种类繁多，这意味着这并非总是可行。为了向用户提供最大的生产价值，Flink 允许对集群内的内存分配进行高级和精细调整。

overfit同步小助手 2024-02-28 17:03:50 0 收藏

[Flink02] Flink架构和原理

这是继第一节之后的Flink入门系列的第二篇，本篇主要内容是是：了解Flink运行模式、Flink调度原理、Flink分区、Flink安装。

overfit同步小助手 2024-02-28 17:03:45 0 收藏