PySpark(二)RDD基础、RDD常见算子

RDD定义叫做Dataset:一个数据集合,用于存放数据的。Distributed:RDD中的数据是分布式存储的,可用于分布式计算。Resilient:RDD中的数据可以存储在内存中或者磁盘中。RDD分区是RDD存储数据的最小单位,一份RDD数据实际上是被分成了很多分区RDD是逻辑的抽象概念,

大数据领域相关术语总结

PGC 的内容形式多样,包括文章、视频、音频、图片等,通常需要经过严格的审核和筛选,符合一定的标准和要求。CVR 指的是广告被点击后,用户进行了期望的行为(比如购买、注册、订阅等)的次数与广告被点击的次数之间的比例,通常以百分比的形式表示。留存率通常是以百分比的形式表示,它是一个重要的用户活跃度指标

[AIGC 大数据基础] 浅谈hdfs

HDFS作为Hadoop生态系统的核心组件之一,提供了高容错性、高可扩展性、高吞吐量的分布式文件系统。它适用于大数据存储和处理、数据仓库、分布式日志收集等多种场景。通过使用HDFS,我们可以更好地管理和处理大规模数据集,实现大数据的存储、计算和分析。

实时数仓-Flink使用总结

阿里云实时计算Flink版是阿里云基于Apache Flink构建的企业级、高性能实时大数据处理系统。具备一站式开发运维管理平台,支持作业开发、数据调试、运行与监控、自动调优、智能诊断等全生命周期能力。本期将对Flink的使用进行总结。

go使用logrus进行日志收集并异步发布日志到kafka

go实现错误日志收集和发送到kafka

spark读sqlserver出现的异常

Spark通过JDBC读取数据之前很早写过一篇博客,本以为所有通过jdbc读取的方式都一样,谁知道这次读sqlserver的时候竟然出现的很多异常,这里把异常的问题进行记录。

【ElasticSearch8.X】学习笔记(一)

8.x与7.x的对比、安装elk8.x、Kibana 安装

【大数据】Flink SQL 语法篇(三):窗口聚合(TUMBLE、HOP、SESSION、CUMULATE)

滚动窗口 将每个元素指定给指定窗口大小的窗口。滚动窗口具有固定大小,且不重叠。例如,指定一个大小为 5 分钟的滚动窗口。在这种情况下,Flink 将每隔 5 分钟开启一个新的窗口,其中每一条数都会划分到唯一的一个 5 分钟的窗口中。

RabbitMQ——死信队列介绍和项目应用

RabbitMQ——死信队列介绍和项目应用。如果你不还不了解死信队列,或者不知道其在项目中的应用的话,看完我的文章你一定会有所收获。

【大数据OLAP引擎】StarRocks为什么快?

StarRocks最初主要的优势是性能,当时在单表查询方面与性能标杆ClickHouse不相上下,而join优化特性使其在多表关联查询场景下的性能表现要远远优于ClickHouse,替换ClickHouse自然也就成了StarRocks的第一个目标。而StarRocks的野心不止于此,后来又进一步发

大数据毕设分享 基于大数据的抖音短视频数据分析与可视化 - python 大数据 可视化

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设,学长分享优质毕业设计项目,今天要分享的是🚩基于大数据的抖音短视频数据分析与可视化🥇

基于scala使用flink将kafka数据写入mysql示例

创建与MySQL连接方法的类。指定kafka数据 并显示。设置flink流处理环境。从kafka源创建数据流。

Elcomsoft 取证工具包系列:Advanced Archive Password Recovery

闯入受密码保护的 ZIP、7Zip 和 RAR 存档!彻底的低级优化有助于更快地完成工作。保证在一小时内恢复某些类型的归档文件。支持:ZIP/PKZip/WinZip、7Zip、RAR/WinRAR、ARJ/WinARJ、ACE/WinACE (1.x)、AES 加密、自解压存档、字典和暴力攻击。

【Flink-1.17-教程】-【一】Flink概述、Flink快速入门

对于Flink而言,流才是整个处理逻辑的底层核心,所以流批统一之后的 DataStream API 更加强大,可以直接处理批处理和流处理的所有场景。下面我们就针对不同类型的输入数据源,用具体的代码来实现流处理。Flink 还具有一个类型提取系统,可以分析函数的输入和返回类型,自动获取类型信息,从而获

zookeeper

分部式系统管理框架,主要来解决分布式应用集群中应用系统的一致性问题:相当于各种分布式应用的 注册中心+文件系统+通知机制用于注册各种分布式应用,存储和管理这些分布式应用的元数据,如果应用或服务本身状态发送变化就会通知客户端。

使用JavaApi获取Kafka的topic、topic的分区数量与副本数量

使用JavaApi获取Kafka的topic、topic的分区数量与副本数量。

【Flink】Flink任务缺失Jobmanager日志的问题排查

问题不是大问题,不是什么代码级别的高深问题,也没有影响任务运行,纯粹因为人员粗心导致,记录一下排查的过程。

赵鹏举:我的大数据能力提升之路 | 提升之路系列(四)

导读为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、

Spark on Yarn安装配置

步骤1:复制和解压Spark安装包解压文件:将Spark安装包解压到/opt/module目录中。

数据仓库【数据治理】

数据治理是要贯穿整个数据仓库的设计开发全流程的,数据治理也不是能一步到位的,在我们不断对业务了解、数据了解、需求了解后,不断的优化迭代,设计开发出适合自己业务的数据仓库才是最好的。数据治理是一个不断雕刻的过程,有点类似代码重构,只有不断的将数据跟业务融合,才能不断的提升数据服务,体现数据仓库价值。

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈