Spark3.0核心调优参数小总结
点击上方蓝色字体,选择“设为星标”回复”面试“获取更多惊喜本文已经加入「大数据成神之路PDF版」中提供下载。你可以关注公众号,后台回复:「PDF」即可获取。更多PDF下载可以参考:《重磅...
大数据实训
计算机专业大数据实训怎么做?学大数据为什么要做实训如何高效做好大数据实训一、细心且认真二、认真思考,动手操作三、独立解决出现的问题四、养成好习惯大数据实训的意义个人发展找工作时的优势学大数据为什么要做实训当我们学完大数据课程后,知道了大数据的基本理论,学了大数据理论知识不等于会大数据技术,就如同学武
Flink CDC 读取MySQL的数据
1、前提背景准备Flink在1.11之后就已经支持从MySQL增量读取Binlog日志的方式。pom文件如下:<properties> <scala.binary.version>2.11</scala.binary.version> <scal
Zookeeper——分布式ID和负载均衡原理
摘要本文主要是介绍zookeeper的除了大部分人都知道的特性意外的一些其他的特性,对于整体的了解一个分布式注册中心的实现具有完整的了解,同时利用zookeeper的其他的特性在工作中,有利于的更好的解决工作的问题。zookeeper相关的特性或许在解决某一些问题上能够取得意想不到的结果。分布式ID
【参赛作品95】DLI Flink SQL+kafka+(opengauss和mysql)进行电商实时业务数据分析
通过对opengauss和mysql的操作,可以很容易发现,mysql对数据类型兼容比较好。而且在创建表时,在数据库,表名和字段加上单引号或双引号都能成功建表,但是opengauss缺不行。Opengauss虽然有很多特性,但是在string的转换不是很好用,找了cast()函数还有其他方法都无法转
【参赛作品78】参加openGauss课程21天学习有感
21天坚持学习openGauss数据库课程,可以说收获满满,课程内容丰富,练习方便,对于新手来说,非常友好。
1.HDFS基础知识
HDFS基础知识
Spark分布式计算期末复习
Spark分布式计算期末复习1. Scala1.1 特点1.2 Scala源代码文件,编译后的文件1.3 变量和常量1.4 推断类型1.5 for循环1.6 数组1.7 方法与函数的区别1.8 函数的声明(有名和匿名)1.9 高阶函数1.10 闭包1.11 Lambda演算1.12 集合类型List
使用DBeaver远程连接hive数据库
1.DBeaver连接hive数据库时需要先在服务器启动hive的metastore服务和hiveserver2服务[root@node2 ~]# nohup bin/hive --service metastore &[root@node2 ~]# nohup bin/hive --ser
【实时数仓】如果写入ES时,发生故障的处理,不丢数据
es,不会丢数据,不会重复数据 设计的一种思路
五十六、Kettle工具的使用
前言:此块内容文字描述效果不佳,故采用看图说话的形式进行阐述提示:双击图片可以将图片放大进行查看数据准备数据表:链接:https://pan.baidu.com/s/1ri8VsQkOKO3vyvbpeksuPA提取码:0000--来自百度网盘超级会员V4的分享数据表导入mysql数据库使用Navi
读完本篇文章就会掌握hive over窗口函数的使用附带习题
前言:我们在学习hive窗口函数的时候,一定要先了解窗口函数的结构。而不是直接百度sum() over()、row_number() over()、或者count() over()的用法,如果这样做,永远也掌握不到窗口函数的核心,当然我刚开始的时候也是这样做的。还好我比较顽强,在HIVE窗口函数问题
浅谈什么是大数据
浅谈什么是大数据有人可能发现了,我这个专栏写的就是大数据,所以我们一起来谈谈大数据。大数据概念百度百科:对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。主要解决的
HDFS Java API操作——《大数据技术原理与应用(第3版)》期末复习
目录HDFS Java API操作创建目录显示目录列表删除目录判断文件存在目录和文件判断重命名文件上传文件文件移动文件下载HDFS Java API操作这里使用Junit包的@Before、@Test方法进行调试测试创建目录fs.mkdirs() //第一步,获取Hadoop FileSystem对
SpringCloud Alibaba实战(12:引入Dubbo实现RPC调用)
断更系列,我给它续上了……
zookeeper
关于zookeeper的一些小总结
Elasticsearch CRUD RestAPI
Elasticsearch CRUD RestAPI
使用 Apache Spark 3.0 分析Stack Overflow数据集的保姆级教程
在本文中,我将展示如何使用 Apache Spark 和 AWS 堆栈(EMR、S3、EC2)完成使用 Stack Overflow 数据集分析
spark源码跟踪(八)累加器Accumulators
累加器Accumulators一,累加器作用及其原理1.1,作用1.2,原理二,累加器关键源码跟踪阅读2.1,测试代码2.2,跟踪源码2.2.1,add调用2.2.2,merge调用三,累加器在行动算子和转换算子中执行有何不同3.1,测试代码一,累加器作用及其原理1.1,作用可实现分布式计数或求和;
day05Hadoop环境搭建之克隆前的准备及Linux的JDK的安装1.0
在克隆之前我们需要进行一些操作,如JDK的安装等无论以后什么时候对虚拟机进行操作的时候,首先进行拍摄快照,以防止虚拟机文件丢失或损坏可以进行恢复。这样的好处是避免虚拟机损坏再进行重装。