大数据 - overfit.cn

【雷丰阳-谷粒商城】【分布式高级篇-微服务架构篇】【22】【RabbitMQ】

【雷丰阳-谷粒商城】【分布式高级篇-微服务架构篇】【22】【RabbitMQ】延时队列，可靠消息Message Queue 消息队列异步处理应用解耦流量控制消息中间件概念RabbitMQ概念MessagePublisherExchangeQueueBindingConnectionChannelC

overfit同步小助手 2024-08-03 22:03:56 0 收藏

Spark 作业的 commit 提交机制 - Spark并发更新ORC表失败的问题原因与解决方法

该问题的原因是spark不支持对同一张ORC/PARQUET非分区表或ORC/PARQUET分区表的同一个分区的并发更新，甚至也不支持以静态分区模式并发更新 ORC/PARQUET分区表的不同分区，其底层细节跟 spark作业两阶段提交机制的实现算法有关，详情见后文。

overfit同步小助手 2024-08-03 22:03:48 0 收藏

基于大数据的高校生源可视化分析系统

随着信息时代的快速发展，高校招生工作日益复杂，需要大量的数据支撑来进行决策分析。本文旨在设计并实现一个基于大数据的高校生源可视化分析系统，以提供高校招生工作的科学决策支持。本系统将基于大量的招生数据，从多个维度进行分析，旨在帮助高校制定更合理的招生政策。首先，该系统基于海量的招生数据进行数据挖掘与分

overfit同步小助手 2024-08-03 22:03:26 0 收藏

微服务通信新纪元：Eureka与分布式服务网格的融合

Eureka作为Netflix开源的服务发现框架，提供了服务注册与发现的功能，而服务网格技术则为服务间通信提供了更细粒度的控制。本文将深入探讨如何在Eureka中实现服务的分布式服务网格通信，包括服务网格的集成、配置和管理。本文详细介绍了服务注册与发现、选择服务网格解决方案、部署服务网格控制平面和数

overfit同步小助手 2024-08-03 21:03:51 0 收藏

Hadoop版本演变、分布式集群搭建

在实际工作中不建议直接连接集群中的节点来操作集群，直接把集群中的节点暴露给普通开发人员是不安全的，建议在业务机器上安装Hadoop，只需要保证业务机器上的Hadoop的配置和集群中的配置保持一致即可，这样就可以在业务机器上操作Hadoop集群了，此机器就称为是Hadoop的客户端节点，Hadoop的

overfit同步小助手 2024-08-03 21:03:47 0 收藏

Apache Spark：SparkGraphX图数据处理技术教程

SparkGraphX 是 Apache Spark 中用于图数据处理和图算法执行的模块。它提供了高效、灵活的图并行计算框架，适用于大规模图数据集的分析。通过理解 SparkGraphX 的核心概念和算法，你可以开始在你的大数据项目中应用图计算技术。请注意，上述代码示例和配置假设你已经熟悉 Spar

overfit同步小助手 2024-08-03 20:03:57 0 收藏

spark 动态资源分配dynamicAllocation

动态资源分配，主要是spark在运行中可以相对合理的分配资源。

overfit同步小助手 2024-08-03 19:03:59 0 收藏

离线数仓数据导出-hive数据同步到mysql

为方便报表应用使用数据，需将ads各指标的统计结果导出到MySQL数据库中。datax支持hive同步MySQL：仅仅支持hive存储的hdfs文件导出。所以reader选hdfs-reader，writer选mysql-writer。null值在hive和mysql里的存储格式不一样，需要告诉D

overfit同步小助手 2024-08-03 19:03:29 0 收藏

rabbitmq生产与消费

一个生产者，多个消费者，消费者之间负载均衡生产者把消息给交换机，交换机把消息推送给与它绑定的所有队列，消费者监听自己的队列交换机与队列由routing key绑定，生产者发送消息时指定交换机和routing key，则对应的队列便会收到消息交换机与队列由routing key绑定，但routing

overfit同步小助手 2024-08-03 18:03:51 0 收藏

福州大学苏立超老师《大数据库系统》第六章复习提纲“hive”

overfit同步小助手 2024-08-03 18:03:48 0 收藏

PostgreSQL自带的命令行工具01- pg_archivecleanup

是 PostgreSQL 中用于管理 WAL（Write-Ahead Logging）归档目录的工具。在使用基于归档的日志复制或持久化存储时，用来清理那些不再需要的归档日志文件，帮助节省存储空间，并维持归档目录的整洁。WAL 是 PostgreSQL 事务日志的一部分，用于保证数据库的事务完整性和持

overfit同步小助手 2024-08-03 17:03:51 0 收藏

大数据快速搭建环境 CDH QuickStart VM虚拟机版本安装

CDH QuickStart VM虚拟机版本安装

overfit同步小助手 2024-08-03 17:03:44 0 收藏

Apache Flink简介

快速认识flink

overfit同步小助手 2024-08-03 16:03:54 0 收藏

阿里面试官：Redis的分布式锁和Zookeeper的有啥区别？为啥要用它？

△Hollis, 一个对Coding有着独特追求的人△这是Hollis的第440篇原创分享作者 l Hollis来源 l Hollis（ID：hollischuang）在分布式锁的实现方案中，通常就是数据库、Redis 以及 Zookeeper 这三种，关于分布式锁的多种实现方式及原理我们这里不展开

overfit同步小助手 2024-08-03 16:03:48 0 收藏

RabbitMQ 超详细笔记

MQ（message queue）,从字面意思上看。本质是个队列，FIFO先入先出，只不过队列中存放的内容是message而已，还是一种跨进程的通信机制，用于上下游传递消息。在互联网架构中，MQ是一种非常常见的上下游“逻辑解耦+物理解耦”的消息通信服务。使用了MQ之后，消息发送上游只需要依赖MQ

overfit同步小助手 2024-08-03 16:03:45 0 收藏

EIK+Filebeat+Kafka

Kafka 是一个分布式的基于发布/订阅模式的消息队列（MQ，Message Queue），主要应用于大数据领域的实时计算以及日志收集。

overfit同步小助手 2024-08-03 15:03:53 0 收藏

Hive 使用 LIMIT 指定偏移量返回数据

LIMIT 子句可用于限制SELECT语句返回的行数。LIMIT 接受一个或两个数字参数，这两个参数必须都是非负整数常量。第一个参数指定要返回的第一行的偏移量（从Hive 2.0.0开始），第二个参数指定要返回的最大行数。当只提供一个参数时，它表示最大行数，偏移量默认为0。

overfit同步小助手 2024-08-03 15:03:21 0 收藏

RabbitMQ介绍以及基本使用

消息队列是一种用于在分布式系统中进行通信的技术。它是一种存储和转发消息的中间件，可以用于将应用程序之间的通信解耦，从而实现高效的异步通信。消息队列允许发送者将消息发送到队列中，而接收者则可以从队列中获取消息并进行处理。这种方式可以帮助系统实现高可用性、高性能、松耦合和可伸缩性。消息队列通常包括生产者

overfit同步小助手 2024-08-03 14:03:39 0 收藏

68道Hbase高频题整理(附答案背诵版)

Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，它利用HBase技术在HDFS上提供了类似于Bigtable的能力。换句话说，Hbase是Apache Hadoop生态系统中的一部分，可以为大数据应用提供快速的随机读写访问。为了更好地理解，我们可以将Hbase想象成一个巨大的表格，

overfit同步小助手 2024-08-03 14:03:16 0 收藏

01 RabbitMQ：简单介绍

overfit同步小助手 2024-08-03 12:03:39 0 收藏