Spark RDD案例:词频统计
经典案例 - 词频统计(本地运行,打包上传到集群上运行)
hive on spark报错:没有发现类
Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 7abab17
云计算复习索引
云计算考试复习索引,动态更新
sql记录之表的创建与删除相关操作
SQL创建表与删除
Spark-Sql RewriteDistinctAggregates
spark sql 优化规则:RewriteDistinctAggregates
创建Spark工程
期末小作业
Windows下的Spark环境配置(含IDEA创建工程--《Spark大数据技术与应用》第九章-菜品推荐项目)
文章目录前言一、下载资源二、本地配置步骤1.解压2.引入本地环境3.启动HADOOP文件4.进行Spark测试三、IDEA引入Spark项目1.idea按照scala插件2.新建scala项目3.配置项目4.新建scala类前言本文适用于《Spark大数据技术与应用》第九章-菜品推荐项目环境配置:`
数据湖(四):Hudi与Spark整合
默认Spark操作Hudi使用表类型为Copy On Write模式。Hudi与Spark整合时有很多参数配置,可以参照https://hudi.apache.org/docs/configurations.html配置项来查询,此外,整合时有几个需要注意的点,如下:Hudi这里使用的是0.8.0版
手把手带你玩转Spark机器学习-使用Spark构建回归模型
系列文章目录手把手带你玩转Spark机器学习-专栏介绍手把手带你玩转Spark机器学习-问题汇总[持续更新]手把手带你玩转Spark机器学习-Spark的安装及使用手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换手把手带你玩转Spark机器学习-使用Spark构建分类模型文章目
【 大数据分析Hadoop + Spark 】10分钟搭建Hadoop(伪分布式 )+ Spark(Local模式)环境
【 大数据分析Hadoop + Spark 】10分钟搭建Hadoop(伪分布式 )+ Spark(Local模式)环境
RDD转换为DataFrame
spark官方提供了两种方法实现从RDD转换到DataFrame。第一种方法是利用反射机制来推断包含特定类型对象的Schema,这种方式适用于对已知的数据结构的RDD转换;第二种方法通过编程接口构造一个 Schema ,并将其应用在已知的RDD数据中。(一)反射机制推断Schema在Windows系
Spark - saveAsTable + rename = 坑
目录一、背景二、环境及测试场景①、环境②、测试场景三、复现历程①、场景探索②、测试用例(写数据)1. rename表(hive引擎)2. 观察rename后表结构3. 记录下rename后的目录状态4. jar包 insertInto写入第二批数据③、测试用例(读数据)1. hive引擎读新路径(l
【BigData】Scala语言的简要介绍以及在window下安装Scala
Spark是专为大规模数据处理而设计的快速通用的计算引擎,它是用Scala语言开发实现的。大数据技术本身就是数据计算的技术,而Scala既有面向对象组织项目工程的能力,又具备计算数据的功能,同时与Spark 紧密集成。一、Scala概述Scala于2001年由瑞士洛桑联邦理工学院(EPFL)编程方法
Scala编程实战 —— 一文学会编码大数据基础案例wordcount
使用scala编写代码实现spark的基础案例 WordCountwordcount是所有大数据框架都基本要做的案例,使用scala编写的wordcount代码对比hadoop更简洁更易写这主要是对scala集合中功能函数的熟悉与使用
spark2.4.0+scala2.11.12+sbt编程实现利用DataFrame读写MySQL的数据
1.要求(1) 在MySQL数据库中新建数据库sparktest,再建表employee,包含下列两行数据;idnamegenderage1AliceF222JohnM25表1 employee表原有数据mysql> create database sparktest;mysql> us
Spark SQL中的DataFrame的创建
创建 SparkSession 对象可以通过SparkSession.builder().getOrCreate()方法获取,但使用 Spark-Shell编写程序时,Spark-Shell客户端会默认提供了一个名为sc的 SparkContext 对象和一个名为 spark 的 SparkSess
Spark面试突击
大数据方面的面试总结汇总,本篇为Spark的面试总结。文章目录一、Spark基础1. 你是怎么理解Spark,它的特点是什么?2. Spark架构了解吗?3. 简述Spark的作业提交流程4. Spark与Hadoop对比?Spark为什么比MapRedude快?二、Spark Core5. 什么是
内存数据库究竟是如何发挥内存优势的?
内存数据库?
使用mllib完成mnist手写识别任务
通过spark完成mnist手写识别任务的实验
RDD的处理过程
Spark用scala语言实现了RDD的API,程序开发者可以通过调用API对RDD进行操作处理。下图为RDD的处理过程:RDD经过一些列的“转换”操作,每一次转换都会产生不同的RDD,以供给下一次“转换”操作使用,直到最后一个RDD经过“行动”操作才会被真正计算处理,并输出到外部数据源中,若中间的