大数据 Spark - overfit.cn

Spark - saveAsTable + rename = 坑

目录一、背景二、环境及测试场景①、环境②、测试场景三、复现历程①、场景探索②、测试用例（写数据）1. rename表（hive引擎）2. 观察rename后表结构3. 记录下rename后的目录状态4. jar包 insertInto写入第二批数据③、测试用例（读数据）1. hive引擎读新路径(l

overfit同步小助手 2022-05-21 07:05:42 0 收藏

【BigData】Scala语言的简要介绍以及在window下安装Scala

Spark是专为大规模数据处理而设计的快速通用的计算引擎,它是用Scala语言开发实现的。大数据技术本身就是数据计算的技术,而Scala既有面向对象组织项目工程的能力，又具备计算数据的功能,同时与Spark 紧密集成。一、Scala概述Scala于2001年由瑞士洛桑联邦理工学院(EPFL)编程方法

overfit同步小助手 2022-05-19 11:46:58 0 收藏

Scala编程实战 —— 一文学会编码大数据基础案例wordcount

使用scala编写代码实现spark的基础案例 WordCountwordcount是所有大数据框架都基本要做的案例，使用scala编写的wordcount代码对比hadoop更简洁更易写这主要是对scala集合中功能函数的熟悉与使用

overfit同步小助手 2022-05-17 08:47:58 0 收藏

spark2.4.0+scala2.11.12+sbt编程实现利用DataFrame读写MySQL的数据

1.要求(1) 在MySQL数据库中新建数据库sparktest，再建表employee，包含下列两行数据；idnamegenderage1AliceF222JohnM25表1 employee表原有数据mysql> create database sparktest;mysql> us

overfit同步小助手 2022-05-16 07:46:48 0 收藏

Spark SQL中的DataFrame的创建

创建 SparkSession 对象可以通过SparkSession.builder().getOrCreate()方法获取,但使用 Spark-Shell编写程序时，Spark-Shell客户端会默认提供了一个名为sc的 SparkContext 对象和一个名为 spark 的 SparkSess

overfit同步小助手 2022-05-15 11:46:37 0 收藏

Spark面试突击

大数据方面的面试总结汇总，本篇为Spark的面试总结。文章目录一、Spark基础1. 你是怎么理解Spark，它的特点是什么？2. Spark架构了解吗？3. 简述Spark的作业提交流程4. Spark与Hadoop对比？Spark为什么比MapRedude快？二、Spark Core5. 什么是

overfit同步小助手 2022-05-12 08:10:12 0 收藏

内存数据库究竟是如何发挥内存优势的？

内存数据库？

overfit同步小助手 2022-05-11 10:00:01 0 收藏

使用mllib完成mnist手写识别任务

通过spark完成mnist手写识别任务的实验

overfit同步小助手 2022-05-05 11:01:21 0 收藏

RDD的处理过程

Spark用scala语言实现了RDD的API，程序开发者可以通过调用API对RDD进行操作处理。下图为RDD的处理过程：RDD经过一些列的“转换”操作，每一次转换都会产生不同的RDD，以供给下一次“转换”操作使用，直到最后一个RDD经过“行动”操作才会被真正计算处理，并输出到外部数据源中，若中间的

overfit同步小助手 2022-05-05 11:01:13 0 收藏

Spark基础学习笔记24：Spark SQL数据源

使用各种数据源：parquet, json, hive表, jdbc

overfit同步小助手 2022-05-03 10:38:20 0 收藏

SparkStreaming--scala

第1关：QueueStream本关任务：编写一个清洗QueueStream数据的SparkStreaming程序。 import java.text.SimpleDateFormat import java.util.Date import org.apache.spark.{Ha

overfit同步小助手 2022-05-02 07:48:37 0 收藏

【极简spark教程】spark聚合函数

spark进阶内容，手把手教你实现UDAF，实现自己的average聚合函数

overfit同步小助手 2022-04-28 08:21:26 0 收藏

【Spark】(task6)Spark RDD完成统计逻辑

文章目录一、Spark RDD二、使用RDD functions完成任务2的统计逻辑Reference一、Spark RDDRDD：resilient distributed dataset (RDD)每个spark程序都有一个driver program运行main函数，在cluster集群上执行

overfit同步小助手 2022-04-23 11:41:44 0 收藏

Spark SQL底层执行流程详解

本文目录一、Apache Spark二、Spark SQL发展历程三、Spark SQL底层执行原理四、Catalyst 的两大优化完整版传送门：Spark知识体系保姆级总结，五万字好文！一、Apache SparkApache Spark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大

overfit同步小助手 2022-04-22 08:08:00 0 收藏

【源码解读】|SparkEnv源码解读

【源码解读】|SparkEnv源码解读导读SparkEnv 创建入口SparkEnv 架构组件前置创建SecurityManager安全管理器创建RPCEnv 环境创建SerializerManager序列化管理器创建BroadcastManager广播管理器创建mapOutputTracker创建

overfit同步小助手 2022-04-21 07:08:32 0 收藏

sbt安装配置与打包

一：安装配置1.下载安装包官网下载地址：sbt - Download将下载好的sbt-1.6.1.tgz解压到相应目录：/home/kyj/soft，这里我们使用版本为1.6.1，注意版本的选择2.解压安装包并放在/home/kyj/soft中：tar -zxvf sbt-1.6.1.tgz sbt

overfit同步小助手 2022-04-20 10:08:37 0 收藏

Spark集群搭建记录 | 云计算[CentOS7] | Scala Maven项目访问Spark实现单词计数

本文目录写在前面step1 下载Scala IDEstep2step3 Scala 下载step4 Scala 配置step5 创建scala项目step6 创建scala objectstep7 修改pom文件配置项目设置输入路径写在前面本系列文章索引以及一些默认好的条件在传送门要想完成Spar

overfit同步小助手 2022-04-18 09:40:17 0 收藏

Spark流处理日志+SSM前端展示（详细）

Spark流处理日志加SSM前端展示

overfit同步小助手 2022-04-18 09:40:00 0 收藏

Spark集群搭建记录 | 云计算[CentOS7] | Spark配置

本文目录写在前面step1 Spark下载step2 修改环境变量~/.bashrc/etc/profile配置文件修改slavesspark-env.shstep3 配置slave节点集群启动web浏览器状态查看配置开机启动（可选）写在前面本系列文章索引以及一些默认好的条件在传送门要想完成Spa

overfit同步小助手 2022-04-17 09:01:42 0 收藏

Spark项目实战-数据清洗

SparkSql单次处理Web日志，分析用户留存率

overfit同步小助手 2022-04-15 08:37:44 0 收藏