大数据 Spark - overfit.cn

Spark 下载、安装与配置

Apache Spark 是一个快速的通用集群计算系统。它提供了Java， Scala， Python ，R 四种编程语言的 API 编程接口和基于 DAG 图执行的优化引擎。它还支持一系列丰富的高级工具：处理结构化数据的 Spark SQL，用于机器学习的 MLlib，控制图、并行图操作和计算的一

overfit同步小助手 2023-06-28 11:04:37 0 收藏

【Spark分布式内存计算框架——Spark 基础环境】1. Spark框架概述

Spark 是加州大学伯克利分校AMP实验室（Algorithms Machines and People Lab）开发的通用大数据出来框架。Spark生态栈也称为BDAS，是伯克利AMP实验室所开发的，力图在算法（Algorithms）、机器（Machines）和人（Person）三种之间通过大规

overfit同步小助手 2023-06-26 19:04:22 0 收藏

Hive on Spark环境搭建（解决Hive3.1.2和Spark3.0.x版本冲突）

使用Hive做元数据存储和HQL解析，Spark做实际计算。（Hive on Spark）Hive 使用3.1.2版本，Spark 使用3.0.3版本。由于Hive 3.1.2 和 Spark 3.0.3不兼容，需要修改Hive中关于Spark的源码和依赖引用。下载Hive 3.1.2源码，上传

overfit同步小助手 2023-06-26 05:04:06 0 收藏

Spark中数据预处理和清洗的方法(python)

常见的数据预处理和清洗方法

overfit同步小助手 2023-06-26 04:04:07 0 收藏

【大数据学习篇1】linux常用命令

/list查看当前目录下有什么文件ls //list -list 通过详细内容形式查看目录下的文件内容 ls -l 或 ll //查看指定目录下文件名字信息 ls 目录 //以详细列表形式查看指定目录下文件名字信息 ls -l 目录 //list all 查看全部文件，包括隐藏文件 ls -a //

overfit同步小助手 2023-06-26 03:03:54 0 收藏

spark第四章：SparkSQL基本操作

接下来我们学习SparkSQL他和Hql有些相似。Hql是将操作装换成MR，SparkSQL也是，不过是使用Spark引擎来操作，效率更高一些SparkSQL的常用操作基本就这些,至于项目吗,下次专门在写一次吧。

overfit同步小助手 2023-06-25 08:04:14 0 收藏

基于Spark的音乐专辑数据分析

基于Spark的音乐专辑大数据分析

overfit同步小助手 2023-06-25 04:03:45 0 收藏

超级独角兽 Databricks 的崛起之路

overfit同步小助手 2023-06-24 23:03:53 0 收藏

Hive+Spark离线数仓工业项目--ODS层及DWD层构建（2）

Hive+Spark离线数仓工业项目--ODS层及DWD层构建

overfit同步小助手 2023-06-24 11:04:25 0 收藏

大数据Doris（三十九）：Spark Load 注意事项

3、使用Spark Load时spark_home_default_dir配置项没有指定spark客户端根目录,提交Spark job 时用到 spark-submit 命令，如果 spark_home_default_dir 设置错误，会报 Cannot run program "xxx/bin/

overfit同步小助手 2023-06-23 22:04:11 0 收藏

Spark RDD编程基本操作

overfit同步小助手 2023-06-23 20:03:55 0 收藏

Spark一些个人总结

随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。...

overfit同步小助手 2023-06-22 10:04:22 0 收藏

Hadoop/Hive/Spark小文件处理

小文件指的是文件size比HDFS的block size小很多的文件。Hadoop适合处理少量的大文件，而不是大量的小文件。首先，在HDFS中，任何block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果有1000 0000个小文件，每个文件占用一个block，则name

overfit同步小助手 2023-06-22 09:04:40 0 收藏

内存大数据

1.经过多年的发展，Hadoop生态系统不断完善和成熟，目前已经包含多个子项目，其中YARN的主要功能是？A.负责集群资源调度管理的组件B.分布式并行编程模型C.分布式海量日志采集、聚合和传输系统D.数据仓库工具正确答案：A2.[单选题]大数据时代,数据使用的关键是?A.数据收集B.数据存储C.数据

overfit同步小助手 2023-06-22 07:04:08 0 收藏

大数据Doris（三十七）：Spark Load导入HDFS数据

也可以在FE 节点“/software/doris-1.2.1/apache-doris-fe/log/spark_launcher_log”中查看执行日志，FE节点不一定在node1-node3哪台节点执行Spark ETL任务，执行任务的节点上才有以上日志路径，该日志默认保存3天。当Yarn中任

overfit同步小助手 2023-06-21 19:04:11 0 收藏

PySpark完美安装

PySpark安装

overfit同步小助手 2023-06-21 05:03:41 0 收藏

将spark的数据保存到MySQL

我们用spark对数据进行分析和提取数据后要对得到的数据进行保存接下来的内容是将数据保存到MySQL数据库中。

overfit同步小助手 2023-06-20 03:04:11 0 收藏

Windows下的Spark环境配置（含IDEA创建工程--《Spark大数据技术与应用》第九章-菜品推荐项目）

文章目录前言一、下载资源二、本地配置步骤1.解压2.引入本地环境3.启动HADOOP文件4.进行Spark测试三、IDEA引入Spark项目1.idea按照scala插件2.新建scala项目3.配置项目4.新建scala类前言本文适用于《Spark大数据技术与应用》第九章-菜品推荐项目环境配置：`

overfit同步小助手 2023-06-20 03:04:03 0 收藏

【大数据面试题大全】大数据真实面试题（持续更新）

overfit同步小助手 2023-06-19 22:05:20 0 收藏

基于Spark技术的银行客户数据分析

大数据实验教学系统案例：银行客户数据分析某银行积累有大量客户数据，现希望大数据分析团队使用Spark技术对这些数据进行分析，以期获得有价值的信息。本案例用到的数据集说明如下：数据集文件：/data/dataset/bank-full.csv 该数据集包含银行客户信息，其中部分字段的说明如下：1

overfit同步小助手 2023-06-18 02:04:23 0 收藏