Hadoop框架及HDFS详细概述
HDFS、MapReduce、YARN
基于Kubernetes部署Spark:spark on kubernetes
spark是一种基于内存的快速、通用、可扩展的的数据分析计算引擎。基于kubernetes的spark搭建
Hadoop 2.8.5与IntelliJ IDEA 2019.1.3集成插件指南
本文还有配套的精品资源,点击获取 简介:本指南详细介绍了如何在IntelliJ IDEA 2019.1.3版本中集成Hadoop 2.8.5,以便于开发者在集成开发环境中高效进行大数据项目开发和调试。介绍了Hadoop核心组件特性,IDEA的优势以及集成插件的具体使用方法和功能。 1. Had
Hive任务优化参数整理
1.当你的查询数据量较大,此时spark等其他计算引擎会因为自身复杂的执行计划导致计算量很大,再加上计算中的硬性资源消耗,导致需要的资源使你无法接受,此时如果你可以接受较长时间的运行等待,建议使用hive,因为hive底层用的mr,任务分割截止到一次mr,没有那面大的消耗需求,你可以通俗的理解为hi
rabbitmq整合skywalking并编写自定义插件增强
rabbitmq整合skywalking首先先下载准备好skywalking 的服务端和ui控制台,java-agenthttps://skywalking.apache.org/downloads/整合skywalking我的流程是在生产者和消费者服务中去引入一个mq的sdk,具体SDK的内容可以
Spark数据介绍
RDD适合需要高度定制化的数据处理逻辑,对容错性要求高的批处理任务。DataFrame适合处理结构化数据,需要快速开发周期,易于使用 SQL 查询的场景。Dataset:结合了 RDD 和 DataFrame 的优点,提供了类型安全和优化执行的能力,适合需要结构化数据处理同时需要一定程度自定义逻辑的
【RabbitMQ】RabbitMQ概述
RabbitMQ是一个开源的消息代理(Message Broker)系统,最初由Rabbit Technologies Ltd开发,并在开源社区的支持下不断发展和完善。它实现了AMQP(高级消息队列协议),为分布式系统和应用提供了强大的消息传递机制。RabbitMQ是一个功能强大、可靠、灵活和可扩展
【Node.js】RabbitMQ 延时消息
在 RabbitMQ 中实现延迟消息通常需要借助插件(如 RabbitMQ 延迟队列插件),因为 RabbitMQ 本身不原生支持延迟消息。延迟消息的一个典型场景是,当消息发布到队列后,等待一段时间再由消费者消费。这可以通过配置 TTL(Time-To-Live)和死信队列(DLX, Dead Le
Docker介绍(八)-- Docker 仓库管理
Docker 仓库是一个存储 Docker 镜像的位置,可以是公共的(如 Docker Hub)也可以是私有的。仓库通常由一个或多个仓库(Repository)组成,每个仓库包含一个或多个标签(Tag),标签标识了镜像的不同版本。通过上述介绍,你应该能够了解如何管理和使用 Docker 仓库,无论是
在RabbitMQ中四种常见的消息路由模式
【代码】在RabbitMQ中四种常见的消息路由模式。
Hadoop单节点集群的搭建
本文基于这一网页的整理创作,旨在进行基于Linux系统环境下的搭建思路分享。
Kafka 命令详解及使用示例
Kafka 提供了丰富的命令行工具,用于主题、消费者组、配置、权限等的管理。灵活使用这些命令,可以帮助我们高效地维护 Kafka 集群。
Kafka Consumer原理与代码实例讲解
Kafka Consumer原理与代码实例讲解作者:禅与计算机程序设计艺术 / Zen and the Art of Computer Programming关键词:Kafka,消费者,消费者组,流处理,消息队列,高吞吐量,分布式系统
从 Kafka 到 WarpStream: 用 MinIO 简化数据流
虽然 Apache Kafka 长期以来一直是流数据的行业标准,但新的创新替代方案正在重塑生态系统。其中之一是 WarpStream,它最近在 Confluent 的所有权下进入了新的篇章。此次收购进一步增强了 WarpStream 提供高性能、云原生数据流的能力,巩固了其作为 Kafka 的可扩展
Flink SQL Benchmark 使用教程
Flink SQL Benchmark 使用教程 flink-sql-benchmark项目地址:https://gitcode.com/gh_mirrors/fl/flink-sql-benchmark 项目介绍Flink SQL Benchmark 是一个用于评估 Flink 批处理 SQL 性
SPARK调优:AQE特性(含脑图总结)
SparkAQE是spark 3.0引入的一大重要功能,今天我们来聊一聊AQE的实现原理。了解一个功能,先来了解其面临的问题。当涉及到大型集群中的复杂查询性能时,处理的并行度和正确Join策略选择已被证明是影响性能的关键因素。
基于Hadoop的天气预报数据爬取与可视化分析
Django-Admin来自django.contrib也就是Django的标准库,默认被配置好,只需要激活启用即可,它的优势在于可以快速对数据库的各个表进行增删改查,一行代码即可管理一张数据库表,相比于手动后台1个模型一般需要4个urls,4个视图函数和4个模板,可以说Django完成了一个程序编
大数据背景下大学生个人信息安全问题及防护措施
大数据背景下大学生个人信息安全问题及防护措施关键词:大数据安全隐私保护个人数据泄露大学生信息安全教育防护技术1. 背景介绍
Java 与 Apache Spark 集成:打造数据处理的超级英雄
Apache Spark 是一个开源的大规模数据处理框架,它提供了一个统一的编程模型,用于执行批处理、流处理、机器学习和图形处理等任务。Spark 的核心优势在于它的速度和易用性。由于 Spark 的 Java API 不像 Scala API 那样提供了方便的元组类型,我们需要自定义一个Pair类
spark-sql建表数据同步到hive
INSERT INTO paimon.my_db.my_table VALUES (1, 'M', 173.5,'北京市朝阳区'), (2, 'G',185, '上海市'), (3, 'cherry', 168.0,'河北省秦皇岛市');备注需要将将paimon-hive-connector-3.1