Flink源码剖析
执行环境 ExecutionEnvironment数据抽象 DataSet DataStream逻辑操作 Source Transformation Sink1. 获取执行环境2. 通过执行环境对象,注册数据源Source,得到数据抽象3. 调用数据抽象的各种Transformation执行逻辑计算
NiFi安装指南
通过以上步骤,你应该能够在你的系统上成功安装并运行 Apache NiFi。NiFi 提供了强大的数据处理和分发功能,适用于各种数据流处理场景。希望这篇博客对你有所帮助!
Apache Iceberg 与 Spark整合-使用教程(Iceberg 官方文档解析)
spark & iceberg
基于大数据的电商平台电脑销售数据分析系统
本项目利用网络爬虫技术从京东电商平台采集各类品牌笔记本电脑的价格、销量、评论等数据,经过数据清洗后存入数据库,并实现电脑销售、市场占有率、价格区间等多维度的可视化统计分析,并基于多属性的特产的个性化推荐。 系统采用 Flask 框架构建后端分析服务,前端采用 Bootstrap + Echarts
大数据利器Hadoop:从基础到实战,一篇文章掌握大数据处理精髓!
在当今大数据时代,数据量的爆炸式增长对企业和技术提出了前所未有的挑战。如何高效地存储、处理和分析这些庞大的数据集,成为了亟待解决的问题。Hadoop作为一种分布式计算框架,应运而生,为大数据处理提供了有效的解决方案。Hadoop是一个由Apache软件基金会维护的开源项目,它基于Google的分布式
【实时数据处理】使用Flink进行实时数据处理
Apache Flink 是一个开源的流处理框架,支持高吞吐量和低延迟的实时数据处理,同时也支持批处理数据。事件时间处理:支持基于事件时间的处理,提供精准的时间语义。高吞吐量和低延迟:优化的执行引擎能够处理大规模数据流,并提供低延迟的结果。状态管理:提供强大的状态管理机制,支持有状态的流处理应用。容
hbase之布隆过滤器
在HBase中,布隆过滤器用于减少查询时间,通过减少不必要的块加载提高集群吞吐率。布隆过滤器就是这样一个高度节省空间的结构,并且其时间也远超一般算法,但是布隆过滤器存在一定的失误率,例如在网页URL黑名单过滤中,布隆过滤器绝不会将黑名单中网页查错,但是有可能将正常的网页URL判定为黑名单当中的,它的
【ACM出版】2024年第四届人工智能与大数据国际学术研讨会 (AIBDF 2024)
【ACM出版】2024年第四届人工智能与大数据国际学术研讨会 (AIBDF 2024)
Flink 水位线(Watermark)个人总结
在Flink中,用于衡量事件时间进展的标记,被称为水位线。可以看作一条特殊的数据记录,它是插入到数据流中的一个标记点。主要内容就是一个时间戳,用来指示当前的事件时间自身理解:本质上就是一个时间戳,表示比这个时间早的事件已经全部到达。并且在数据乱序的情况下,通过水位线可以判断出迟到的数据。
基于大数据爬虫+数据可视化与大数据分析的网络电视剧收视率分析系统设计与实现(附源码+论文+部署指南)
基于Hive的网络电视剧收视率分析系统是一个高效、精确的数据管理与分析平台,旨在为电视传媒机构和观众提供一个全面的收视率数据解决方案。通过利用Hive的大数据处理能力,该系统能够存储和分析海量的收视数据,从而揭示不同电视剧的受欢迎程度和观众偏好。管理员可以通过系统管理模块轻松地更新用户信息、发布公告
Spark-RDD(Resilient Distributed Dataset)图文详解
Spark-RDD概述
大数据新视界 --大数据大厂之大数据驱动下的物流供应链优化:实时追踪与智能调配
本文深入探讨大数据在物流供应链中的重要性、应用场景、技术实现及前沿应用探索,通过案例分析展现其在实时追踪与智能调配方面的强大作用,同时强调数据安全与隐私保护。
2024年Gartner企业备份与恢复解决方案的魔力象限报告解读 | 新鲜首发 附报告原文链接
Gartner 将企业备份和恢复软件解决方案定义为在本地、混合、多云和软件即服务 (SaaS) 环境中捕获企业数据的时间点副本(备份)的技术。这些解决方案将这些数据写入一个或多个辅助存储目标,主要目的是在数据损坏或者丢失时能够及时恢复数据。保护和恢复业务应用程序数据(无论底层基础设施类型及其位置如何
基于大数据的电子产品需求数据分析系统的设计与实现(Python Vue Flask Mysql)
本研究旨在设计并实现一个基于大数据的电子产品需求数据分析系统,以协助企业更精准地预测市场需求、优化资源配置,并提升市场竞争力。系统以Python、Vue、selenium、Echarts、Hadoop和MySQL为技术基础,利用selenium技术实现淘宝电子产品数据的抓取,并将数据存储于Hadoo
大数据岗位:数据开发工程师,数据分析师,报表BI工程师的介绍和区别
大数据岗位基本概述,数开,数分,数据报表BI工程师
【大数据入门 | Hive】函数{单行函数,集合函数,炸裂函数,窗口函数}
Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。好处:避免用户反复写逻辑,可以直接拿来使用。重点:用户需要知道函数叫什么,能做什么。Hive提供了大量的内置函数,按照其特点可大致分为如下几类:单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。1
数据仓库的建设——从数据到知识的桥梁
数据仓库的建设——从数据到知识的桥梁
如何学习大数据 (学习路线)
学习大数据需要跨越多个领域,从存储、处理、分析到系统管理。通过系统化学习技术栈、动手实践项目、理解性能调优技巧,你可以逐渐掌握大数据的核心技能。
Hadoop搭建及Springboot集成
Hadoop搭建及Springboot使用hdfs上传文件
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
增量构建的Cube需要指定分割时间列,例如:将日期分区字段添加到维度列中:Data Model:New Join Condition,需要配置好几个:配置成如下的结果:维度配置如下图所示:填写名字等跳过,维度需要添加 DT、其他都要:配置完的结果如下图:度量配置如下:(Bulk Add Measur