2023_Spark_实验三十一:开发Kafka偏移量的公共方法

基于scala,开发代码,将消费者组的offset信息存入mysql数据库

字节跳动 MapReduce - Spark 平滑迁移实践

近一年内字节跳动 Spark 作业数量经历了从 100 万到 150 万的暴涨,天级数据 Flink Batch 从 20 万涨到了 25 万,而 MapReduce 的用量则处于缓慢下降的状态,一年的时间差不多从 1.4 万降到了 1 万左右,基于以上的用量情况,MapReduce 作为我们使用的

大数据之旅--Hadoop入门

Hadoop是Apache旗下的一个用Java语言实现开源软件框架,是一个存储和计算大规模数据的软件平台。-------几张图让你理解Hadoop的架构

【Flink-1.17-教程】-【二】Flink 集群搭建、Flink 部署、Flink 运行模式

YARN 上部署的过程是:客户端把 Flink 应用提交给 Yarn 的 ResourceManager,Yarn 的 ResourceManager 会 向 Yarn 的 NodeManager 申 请 容 器 。 在 这 些 容 器 上 , Flink 会 部 署 JobManager 和 Ta

还在做 Hadoop 生态?那我祝你一帆风顺

上回说到,我决定走出大数据的围城,用另一种视角审视与复盘行业。文章发出后收到很多读者的反馈,其中呼声比较高的一条是希望我能聊聊大数据的行业前景与思考。针对这个问题,后面我会分享一些自己的经验与思考,同时,也会邀请来自各个大厂及正在相关方向创业的朋友做客(techinstitute),相信届时可以解答

大数据----33.hbase中的shell文件操作

这些是关于HBase在表中操作的命令。create: 创建一个表。list: 列出HBase的所有表。disable: 禁用表。is_disabled: 验证表是否被禁用。enable: 启用一个表。is_enabled: 验证表是否已启用。describe: 提供了一个表的描述。alter: 改变

毕业设计:python商品销售数据采集分析可视化系统 京东商品数据爬取+可视化 大数据 python(源码)✅

毕业设计:python商品销售数据采集分析可视化系统 京东商品数据爬取+可视化 大数据 python(源码)✅

搭建flink集群 —— 筑梦之路

一个 Flink 集群总是包含一个 JobManager 以及一个或多个 Flink TaskManager。Flink TaskManager 运行 worker 进程, 负责实际任务 Tasks 的执行,而这些任务共同组成了一个 Flink Job。Flink中的工作进程。通常在Flink中会有

基于Hologres+Flink的曹操出行实时数仓建设作者:林震|曹操出行实时计算负责人

曹操出行创立于2015年5月21日,是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务,以“科技重塑绿色共享出行”为使命,将全球领先的互联网、车联网、自动驾驶技术以及新能源科技,创新应用于共享出行领域,以“用心服务国民出行”为品牌主张,致力于打造服务口碑最好的出行品牌。作为一家互联网出行平台,

一百六十四、Kettle——Linux上脚本运行kettle的转换任务(Linux本地、Linux资源库)

Linux上脚本运行kettle的转换任务(亲测,附截图)

Spark基础学习--基础介绍

Spark是可以处理大规模数据的统一分布式计算引擎。

【大数据】安装 Zookeeper 单机版

点击 Download 即可下载,这里我们选择的版本是 3.5.10,下载之后扔到服务器上。由于 Zookeeper 是基于 Java 语言编写的,所以还需要安装 JDK,这里我使用的是 JDK1.8,都已经已经安装好了,并配置了环境变量。

flink1.17部署模式和部署方法

Apache Flink是一个框架和分布式处理引擎,用于对无边界和有边界的数据流进行有状态的计算。Flink被设计为可以在所有常见集群环境中运行,并能以内存速度和任意规模执行计算。目前市场上主流的流式计算框架有Apache Storm、Spark Streaming、Apache Flink等,但能

git reset 四个模式:soft、mixed、hard、keep区别

首先这里创建了两个文件a.txt 和 b.txt在a.txt变更2中仅修改了a.txt;b.txt没有变更然后将b修改后,进行了add操作,提交到了暂存区:使用git status可以看到暂存区记录了b.txt的修改现在我们再分别将a、b文件进行修改如果直接使用git reset --keep进行回

大数据和机器学习:从基础到高级

1.背景介绍大数据和机器学习是当今最热门的技术领域之一,它们在各个行业中发挥着重要作用。大数据技术可以帮助我们从海量数据中发现隐藏的模式和关系,从而为决策提供数据驱动的依据。机器学习则是一种人工智能技术,它可以让计算机自动学习和改进其行为,从而提高效率和准确性。本文将从基础到高级的角度,详细介绍大数

大数据开发之电商数仓(hadoop、flume、hive、hdfs、zookeeper、kafka)

1、数据需求:用户分析日志log、业务数据db2、采集需求:日志采集系统(flume)、业务数据同步系统(Maxwell,datax)3、数据仓库建模:维度建模4、数据分析:对设备、会员、商品、地区、活动等电商核心主题进行统计,统计的报表指标接近100个。5、即席查询:用户在使用系统时,根据自己当时

[PySpark学习]RDD的转换(Transformation)与动作算子(Action)

RDD(英文全称Resilient Distributed Dataset),即弹性分布式数据集是spark中引入的一个数据结构,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。Resilient弹性:RDD的数据可以存储在内存或者磁盘当中,RDD的数据可以分区。

大数据:分类算法深度解析

大数据分类算法是处理海量数据、从中提取有用信息的关键工具。本文深入探讨了分类算法的基本原理、常见算法以及它们在不同领域的应用。通过案例分析,我们了解了如何使用决策树、支持向量机和神经网络等算法解决实际问题,并通过代码示例展示了它们在Python中的实现。未来,大数据分类算法的发展趋势包括深度学习的应

从Dinky聊聊Flink的二次开发

这几天研究了一下Dinky,确实是一款很不错的软件,功能很强大,也很实用,可以极大的方便我们flink sql的开发工作,同时他也支持其他一些主流数据库的SQL,像starrocks。Dinky号称基于Flink二次开发,没有侵入Flink,所以这一点就值得我们学习,为了了解Dinky我自己也搭建了

Spark SQL进阶

spark sql 深度介绍,spark_dataFrame与pandas_dataFrame互转,基于pandas的完成自定义UDF函数,UDAF函数

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈