大数据 - overfit.cn

直升机坠机了，今天来教大家有点小难度的spark和scala的安装部署

首先下载Scala和spark的安装包Scala安装包spark安装包修改网关连接xshell将安装包使用导入到虚拟机。

overfit同步小助手 2024-03-15 08:03:49 0 收藏

实时Flink数据流与ApacheHive集成

1.背景介绍在大数据时代，实时数据处理和批处理数据处理都是非常重要的。Apache Flink 是一个流处理框架，可以处理大规模的实时数据流，而 Apache Hive 是一个基于 Hadoop 的数据仓库工具，主要用于批处理数据处理。在实际应用中，我们可能需要将 Flink 与 Hive 集成，以

overfit同步小助手 2024-03-15 08:03:39 0 收藏

hive 中少量数据验证函数的方法-stack

stack,lag,lead

overfit同步小助手 2024-03-15 07:03:40 0 收藏

Hadoop、Spark 和大数据处理

Hadoop 生态系统包含多个组件，每个组件都有不同的功能。：用于存储大规模数据的分布式文件系统。它将数据分成块并在集群中的多个节点上进行存储。MapReduce：分布式计算框架，用于处理大规模数据集。它将任务分为 Map 阶段和 Reduce 阶段，适合离线数据处理。：资源管理器，负责集群资源的分

overfit同步小助手 2024-03-15 07:03:37 0 收藏

整合RabbitMQ实现延迟消息

RabbitMQ是一个被广泛使用的开源消息队列。它是轻量级且易于部署的，它能支持多种消息协议。RabbitMQ可以部署在分布式和联合配置中，以满足高规模、高可用性的需求。

overfit同步小助手 2024-03-15 06:03:28 0 收藏

205 eureka-servie-高可用与核心知识

清空二级缓存，即 readWriteCacheMap，用于保证数据的一致性，将此事件同步至其他的 Eureka Server 节点。服务正常停止才会发送 Cancel，如果是非正常停止，则不会发送，此服务由 Eureka Server 主动剔除。服务注册后，要定时（默认 30S，可自己配置）向注册中

overfit同步小助手 2024-03-15 04:03:58 0 收藏

Flink中的数据序列化和反序列化

1.背景介绍在Flink中，数据序列化和反序列化是一个非常重要的过程。它们决定了Flink如何将数据从一个格式转换为另一个格式，以及如何在分布式环境中传输和存储数据。在本文中，我们将深入探讨Flink中的数据序列化和反序列化，并讨论其核心概念、算法原理、最佳实践和实际应用场景。1. 背景介绍Flin

overfit同步小助手 2024-03-15 04:03:49 0 收藏

JAVA面试题分享一百六十三：Kafka如何实现延时推送?

延时队列：是一种消息队列，可以用于在指定时间或经过一定时间后执行某种操作。本案例已成功实现Kafka的延时队列，并进行实测，代码引入可用非常方便。Kafka实现的延时队列支持秒级别的延时任务，不支持毫秒级别，但是毫秒级别的延时任务也没有意义注意一个主题对应的延时时间是一致的，不能在同一个主题里放不同

overfit同步小助手 2024-03-15 03:03:44 0 收藏

RabbitMQ

基本消息队列的消息发送流程：建立connection创建channel利用channel声明队列利用channel向队列发送消息基本消息队列的消息接收流程：建立connection创建channel利用channel声明队列定义consumer的消费行为handleDelivery()利用chann

overfit同步小助手 2024-03-15 02:03:38 0 收藏

【消息中间件】Rabbitmq消息可靠性、持久化机制、各种消费

RabbitMQ 提供了多种机制来确保消息的可靠性，以防止消息丢失或被意外删除。以下是几种提高消息可靠性的方法：持久化消息（Durable Message）：在发布消息时，将消息的设置为2，即可将消息设置为持久化消息。持久化消息会将消息写入磁盘，即使 RabbitMQ 服务器重启，消息也不会丢失。持

overfit同步小助手 2024-03-15 02:03:29 0 收藏

【大厂面试演练】知道ZooKeeper有什么应用场景吗

面试官：看你简历写了精通ZooKeeper，那我就随便考考你吧。首先我上面说的共享锁实现方式如果在集群不大的情况下是可行的，而且他实现简单实用。而如果在集群规模大的场景下，可以这样改进...

overfit同步小助手 2024-03-15 01:03:51 0 收藏

云计算与大数据课程笔记（一）云计算背景与介绍

云计算是一种革命性的技术，它改变了企业和个人获取和使用计算资源的方式。作为一种工业界的导向，云计算提供了一种商业服务，通过大量计算机构成的分布式系统资源，形成了资源池，允许用户按需访问计算力、存储空间和各种服务，而无需关心底层的物理硬件。云计算作为一种商业服务，通过虚拟化技术和分布式系统将庞大的计算

overfit同步小助手 2024-03-15 01:03:44 0 收藏

弱结构化日志 Flink SQL 怎么写？SLS SPL 来帮忙

本文介绍一种使用 SLS SPL 配置 SLS Connector 完成数据结构化的方案，覆盖日志清洗与格式规整场景。

overfit同步小助手 2024-03-15 00:03:14 0 收藏

数据仓库Inmon和Kimball架构

在Inmon模式中，并不强调事实表和维度表的概念，因为数据源变化的可能性较大，需要更加强调数据的清洗工作，从中抽取实体-关系。对于Kimball模式，数据源往往是给定的若干个数据库表，数据较为稳定但是数据之间的关联关系比较复杂，需要从这些OLTP中产生的事务型数据结构抽取出分析型数据结构，再放入数据

overfit同步小助手 2024-03-14 23:03:14 0 收藏

RabbitMQ_高级

每个RabbitTemplate只能配置一个ReturnCallback，因此需要在项目加载时配置：修改publisher服务，添加一个：@Slf4j@Override@Overrideif(b) {log.info("消息发送成功到达交换机");}else {log.info("消息发送失败");

overfit同步小助手 2024-03-14 22:03:49 0 收藏

Docker镜像的默认存储位置

要修改Docker镜像的默认存储位置，可以按照以下步骤操作：Docker镜像默认存储在目录下。

overfit同步小助手 2024-03-14 22:03:39 0 收藏

基于大数据的空气质量预测与可视化分析

随着工业化和城市化进程的加快，空气污染已成为全球面临的主要环境问题之一。二零二零年我国提出“碳达峰碳中和”的目标，更加深刻我国走可持续发展道路的脚步。在我国，特别是某些大城市，由于车辆排放、工业排放和其他人为活动，空气质量问题日益严峻。不同地区的空气质量参差不齐，造成空气污染的污染物种类繁多，空气污

overfit同步小助手 2024-03-14 22:03:21 0 收藏

Elasticsearch与Hadoop整合

1.背景介绍Elasticsearch和Hadoop都是大数据处理领域中的重要技术，它们各自具有不同的优势和应用场景。Elasticsearch是一个分布式搜索和分析引擎，它可以实现快速、高效的文本搜索和数据分析。Hadoop则是一个分布式文件系统和大数据处理框架，它可以处理大量数据并进行高效的存储

overfit同步小助手 2024-03-14 21:03:50 0 收藏

浅谈大数据生态

关于：那头会飞起来的大象。

overfit同步小助手 2024-03-14 21:03:38 0 收藏

Kafka

overfit同步小助手 2024-03-14 20:03:28 0 收藏