探索高效能:Splash——Spark的灵活洗牌管理器
探索高效能:Splash——Spark的灵活洗牌管理器 splashSplash, a flexible Spark shuffle manager that supports user-defined storage backends for shuffle data storage and ex
MQ基础:RabbitMQ真面目
介绍了RabbitMQ的基础知识,快来看看吧~
探索未来机器人的强大伙伴:SPARK-MAX-Examples
探索未来机器人的强大伙伴:SPARK-MAX-Examples SPARK-MAX-ExamplesExample code for SPARK MAX项目地址:https://gitcode.com/gh_mirrors/sp/SPARK-MAX-Examples 在机器人技术和教育领域,开源项目
Hadoop资源全解压缩包
本文还有配套的精品资源,点击获取 简介:Hadoop是一个开源的分布式计算框架,专为处理和存储大数据设计。本资源包“hadoop.zip”提供了一系列Hadoop核心组件和相关资源,包括HDFS和MapReduce,以及源代码、构建脚本、配置文件、文档和测试用例等。通过掌握这些内容,用户可以深入
Hadoop之mapreduce -- WrodCount案例以及各种概念
mapreduce的介绍以及Java代码实现mapreduce的word count案例
尚硅谷大数据全套技术链接
链接:https://pan.baidu.com/s/1UWloFOsZHgMSzIvmx6n9MA。链接:https://pan.baidu.com/s/1pT5Pdnjy4hLiFX2Oov4BLQ。链接:https://pan.baidu.com/s/1SVt51kJjvFnNcMR30glO
分布式框架 - ZooKeeper
是一个分布式程序的协调服务,是Hadoop和Hbase的重要组件。提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
Zookeeper与Docker集成与应用
Zookeeper与Docker集成与应用作者:禅与计算机程序设计艺术 / Zen and the Art of Computer Programming1. 背景介绍1.1 问题的由来随着分布式系统的广泛应用,
Flink 窗口最全汇总
将要计算的数据限制一个范围,统计一个范围内的数据。将无界的数据切割成有届的数据。
Hive之任务优化
Hive 是一个基于 Hadoop 的数据仓库工具,提供了 SQL-like 的查询语言来分析存储在 HDFS(Hadoop Distributed File System)上的大规模数据集。为了提高查询性能,Hive 提供了多种优化方法,涵盖不同层次的改进,从 SQL 查询层到执行层。
运维学习————kafka(1)
kafka中文文档kafka是由apache软件基金会开发的一个开源流处理框架,由JAVA和scala语言编写。是一个高吞吐量的分布式的发布和订阅消息的一个系统。Kafka用于构建实时的数据管道和流式的app.它可以水平扩展,高可用,速度快,并且已经运行在数千家公司的生产环境。
【RabbitMQ】RabbitMQ 的概念以及使用RabbitMQ编写生产者消费者代码
本文介绍了 RabbitMQ 的核心概念,包括生产者、消费者、Connection 和 Channel、Virtual host、Queue、Exchange 等,还讲解了 AMQP 协议及 RabbitMQ 快速入门,包括引入依赖、编写生产者和消费者代码及示例。
Kafka在Windows下的详细安装指南:一站式解决方案
Kafka在Windows下的详细安装指南:一站式解决方案 KafkaWindows下安装Kafka图文记录详细步骤 项目地址: https:/
陌陌聊天数据案例分析
陌陌是一个聊天平台,每天都会产生大量大聊天数据,通过对聊天数据的统计分析,可以更好的构建用户画像,为用户提供更好的服务以及实现高ROI的平台运营推广,给公司的决策提供精准的数据支撑。基于Hadoop和hive实现聊天数据统计分析,构建聊天数据分析报表。统计今日总消息量、每小时消息量、发送和接受用户数
大数据实时数仓Hologres(四):基于Flink+Hologres搭建实时数仓
在Flink开发平台,新建名为DWD的SQL流作业,并将如下代码拷贝到SQL编辑器后,部署并启动作业。创建Catalog时可以设置默认的源表、维表和结果表的WITH参数,也可以设置创建Hologres物理表的默认属性,例如上方table_property开头的参数。a) 在Flink开发平台,新建名
大数据新视界 --大数据大厂之TeZ 大数据计算框架实战:高效处理大规模数据
本文聚焦 TeZ 大数据计算框架,阐述其采用 DAG 执行模式提升 MapReduce 性能,基于内存传递数据对比传统框架优势明显。介绍性能提升(如电商数据处理)和灵活性优势,给出 TeZ 实战中的环境搭建、WordCount 示例,还有大规模数据处理优化策略。最后展示金融、医疗行业应用案例,如银行
Spark的介绍
DataBricks官网:https://databricks.com/spark/aboutspark的诞生其实是因为MR计算引擎太慢了。MR计算是基于磁盘的,Spark计算是基于内存的。spark的发展历程:2009年,Spark诞生于伯克利AMPLab,伯克利大学的研究性项目。2014年2月成
大数据毕业设计选题推荐-重庆旅游景点数据分析系统-Python-Hive-Hadoop-Spark
近年来,重庆作为中国西部地区的重要旅游目的地,其旅游业呈现出蓬勃发展的态势。根据重庆市文化和旅游发展委员会的数据,2022年重庆接待国内外游客3.19亿人次,同比增长35.6%;实现旅游总收入3,651.23亿元,同比增长41.2%。这一增长趋势在线上平台得到了充分反映,据某知名旅游网站统计,202
阿里云kafka消息写入topic失败
本章主要介绍了一下,本人在工作中遇到的kafka 消息写入主题失败的排查过程
【Earth‘s Future】遥感大数据在水环境监测中的应用现状、挑战与未来展望
水动力学和水质估计是研究生态、环境和水文过程的基本但具有挑战性的问题。水提取和利用遥感大数据对水质参数进行定量估计,由于遥感大数据具有多尺度地球表面有效和连续监测的能力,为观测水动态和水质估算提供了有效的途径。在过去的几十年里,人们付出了相当大的努力来开发各种取水和定量估计不同类型水(包括海洋、湖泊