大数据 Spark - overfit.cn

实验4 RDD编程初级实践

一、实验目的（1）熟悉Spark的RDD基本操作及键值对操作；（2）熟悉使用RDD编程解决实际具体问题的方法。二、实验平台操作系统：Ubuntu16.04Spark版本：2.1.0三、实验内容和要求实验内容与完成情况：1.spark-shell交互式编程（1）该系总共有多少学生；（2）该系共开设来多

overfit同步小助手 2023-04-26 00:04:00 0 收藏

如何通过SparkUI 查看SparkSql作业

执行计划中的每个蓝色方块都有非常多的信息可以查看，如肉眼直接可以看到的Scan orc table_name ，number of output rows: 说明扫描了哪个表，这个表有多少行，我们把鼠标放在对应的信息上也会显示详细的信息，扫描的表的hdfs路径，分区，表存在的字段，等等，如下图。注：

overfit同步小助手 2023-04-25 05:03:54 0 收藏

图书推荐系统（附源码链接）

图书推荐实现了借书还书，信息修改，图书管理，用户管理等功能，使用到spark的地方响应时间较长，是一个弊端

overfit同步小助手 2023-04-24 21:03:58 0 收藏

Spark—idea

spark—ideal

overfit同步小助手 2023-04-24 12:03:39 0 收藏

Spark SQL参数调优指南

overfit同步小助手 2023-04-24 04:03:47 0 收藏

spark- Dataframe基本操作-查询

查询相关操作.show() 显示头n 行.printSchema() 打印表概要，.count() 查询统计表中数据行数.distinct() 去重后的数据.collect()获取所有数据到数组.head(num) 以及.take(num) 获取前num行记录.sample() 采样.select(

overfit同步小助手 2023-04-23 18:03:43 0 收藏

spark-在IDEA中搭建scala编程环境

入门spark-rdd编程

overfit同步小助手 2023-04-23 13:03:39 0 收藏

类比一下，秒懂大数据模式

大数据架构模式，其实与单机开发模式一致，类比一下就会更加清晰。

overfit同步小助手 2023-04-22 17:03:36 0 收藏

hive修改spark版本重新编译，hive3.1.3 on spark3.3.0

overfit同步小助手 2023-04-21 17:03:38 0 收藏

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

一文看懂大数据生态圈完整知识体系

overfit同步小助手 2023-04-21 12:03:49 0 收藏

从0到1搭建大数据平台之调度系统

大数据调度系统。

overfit同步小助手 2023-04-21 11:03:42 0 收藏

大数据编程实验三：SparkSQL编程

大数据编程实验，学习有关SparkSQL的基础操作以及编程实现将RDD转换为DataFrame和利用DataFrame读写MySQL的数据的方法。

overfit同步小助手 2023-04-21 01:03:37 0 收藏

Spark SQL 日期和时间戳函数

Spark SQL 提供了内置的标准 Date 和 Timestamp函数，定义在 DataFrame API 中，所有函数都接受输入日期类型、时间戳类型或字符串。如果是String，是可以转换成日期格式，比如或，分别返回date和timestamp；如果输入数据是无法转换为日期和时间戳的字符串

overfit同步小助手 2023-04-20 19:03:50 0 收藏

Windows下配置Hadoop及Spark环境

前言教程所用各版本说明一 JDK环境配置由于项目用的JDK17，所以单独给Hadoop配了JDK11，建议直接配置JAVA_HOME环境变量为JDK11，因为后面Spark需要用到JAVA_HOME下载jdk-11.0.13_windows-x64_bin.zip链接：https://www.or

overfit同步小助手 2023-04-19 05:03:38 0 收藏

11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

（1）安装Spark1.先用xftp将安装包传到home/hadoop/Downloads文件夹下，然后解压安装。2.解压缩：3. 更改文件夹名称：4.修改hadoop用户对文件夹spark的访问权限：（2）配置1.复制一份由Spark安装文件自带的配置文件模板：如图所示：返回结果：Pi is ro

overfit同步小助手 2023-04-19 01:03:40 0 收藏

【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户

Spark SQL是Apache Spark的一个模块，提供了一种基于结构化数据的编程接口。它允许用户使用SQL语句或DataFrame API来查询和操作数据，同时还支持使用Spark的分布式计算引擎进行高效的并行计算。Spark SQL支持多种数据源，包括Hive、JSON、Parquet、Av

overfit同步小助手 2023-04-18 22:03:51 0 收藏

由spark.sql.shuffle.partitions混洗分区浅谈下spark的分区

spark分区 spark并行度 spark任务数 spark输入数据分区 spark shuffle操作分区

overfit同步小助手 2023-04-18 04:03:42 0 收藏

Spark参数优化

sprak参数优化

overfit同步小助手 2023-04-18 00:03:42 0 收藏

09.大数据技术之Spark

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含Spa

overfit同步小助手 2023-04-17 12:03:57 0 收藏

Spark SQL操作HUDI表实践

从 0.9.0 开始 hudi 已经支持 hudi 内置的 FileIndex：HoodieFileIndex 来查询 hudi 表，支持分区剪枝和 metatable 查询。这将有助于提高查询性能。它还支持非全局查询路径，这意味着用户可以通过基本路径查询表，而无需在查询路径中指定“*”。有关支持的

overfit同步小助手 2023-04-15 22:04:02 0 收藏