【大数据】计算引擎:Spark核心概念

十分钟,一文讲明白复杂抽象的Spark核心概念。

flink之定时器(Timer)

由于EventTime类型定时器是由Watermark,那么只要任务产生watermark就能正常触发恢复的定时任务,但是ProcessingTime类型的定时器是由系统注册的延时调度来触发,所以在重启的时候获取到队列中第一个元素来注册延时调度,保证其恢复之后的正常触发。flink为了保证定时触发操

Git 超详细学习教程 (附带有详细的图文安装教程,适用于新手阅读学习)

版本控制(Revision control)是一种在开发的过程中用于管理我们对文件、目录或工程等内容的修改历史,方便查看更改历史记录,备份以便恢复以前的版本的软件工程技术。实现跨区域多人协同开发追踪和记载一个或者多个文件的历史记录组织和保护你的源代码和文档统计工作量并行开发、提高开发效率跟踪记录整个

Hadoop分布式计算框架(MapReduce)——案例实践:气象大数据离线分析

数据格式由Year(年)、Month(月)、Day(日)、Hour(时)、Temperature(气温)、Dew(湿度)、Pressure(气压)、Wind dir.(风向)、Wind speed(风速)、Sky Cond.(天气状况)、Rain 1h(每小时降雨量)、Rain 6h(每6小时降雨量

智慧消防大数据管控平台建设方案

首先,我们要时刻关注国内外消防行业的最新动态和技术创新成果,这是为了确保我们的智慧消防大数据管控平台能够站在行业的前沿,提供最有效的支持和解决方案。当然,在选择传感器时,我们还得考虑它们的能耗和寿命,就像是给消防员配备合适的装备,选择适合的供电方式和维护方案,确保它们能够持续稳定地工作。首先,我们要

spark总结

spark是基于内存计算的通用大数据并行计算框架,是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈,适用于不同场合的分布式场景,如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。

Spark分布式集群搭建

这里的Spark分布式集群是以我上一篇文章发的Hadoop分布式集群为基础搭建的,都是在UbuntuKylin系统中搭建的。过几天发Centos上的分布式集群搭建。

StarRocks实战——多点大数据数仓构建

StarRocks实战——多点大数据数仓构建

大数据技术之HBase(超级详细)

HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。本文主要介绍了关于HBase的原理概念

从零开始在openEuler上构建Hadoop

申请环境可以从PCL上申请,申请流程如下:申请完环境后就可以通过terminal登录辣~(xshell, mobaXterm, putty, 选一个你喜欢的)配置yum源。

大数据商品推荐系统

是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算,同时它也是当前最流行的云计算平台。本次课程设计通过Hadoop云计算平台实现一个商品推荐系统,希望通过编写本次课程设计,能够对Hadoop有一个基本的了

真香,美柚大数据研发的分布式计算任务调度系统

基于SSH的脚本执行机制,部署简单快捷,仅需单个服务基于Yarn Rest Api的任务状态同步机制,对Spark、Flink无版本限制支持失败重试支持任务依赖支持复杂任务编排(DAG)支持流处理任务运行管理和监控支持Yarn应用管理。

基于大数据的手机销售数据分析可视化系统,爬取京东和淘宝的的手机商品数据进行分析,Flask,Python,数据可视化

该系统主要是通过爬取京东和淘宝的的手机商品数据进行分析。爬虫python脚本通过打开浏览器授权登录后按照搜索“手机”关键字后出现的商品列表进行爬取,获取标题名,解析付款人数,品牌,评论人数,发货地,包邮等标签,通过发货地和高德API获取经纬度,然后将数据入库,为后续可视化页面做铺垫。可视化页面主要是

Flink Checkpoint 机制深度解析:原理、注意事项与最佳实践

Checkpoint 主要通过周期性地创建应用流图状态的全局快照来实现,当系统发生故障时,可以从最近成功的 Checkpoint 快照恢复,从而实现 Exactly-Once 处理语义。:所有算子完成状态快照后,会通知 Checkpoint Coordinator,只有当所有参与 Checkpoin

毕业设计项目 基于大数据的电影数据爬取分析可视化系统

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是🚩基于大数据的电影数据爬取分析可视化系统🥇

hadoop的安装与配置

主机:master(192.168.10.3)从机:slave0(192.168.10.4)从机:slave1(192.168.10.5)

Flink流计算常用算子大全

Flink 已经提供了若干实现好了的 source functions,当然我们也可以通过实现 SourceFunction 来自定义非并行的source或者实现 ParallelSourceFunction 接口或者扩展 RichParallelSourceFunction 来自定义并行的 sou

RabbitMQ压测简介_rabbitmq 压测工具(1),2024年大数据开发面试题

个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈