大数据 Spark - overfit.cn

spark实验三 Spark SQL编程初级实践

将下列json数据复制到你的ubuntu系统/usr/local/spark下，并保存命名为employee.json。

overfit同步小助手 2024-05-26 08:03:50 0 收藏

spark结课之tip2

spark常用方法总结：一、从内部创建RDD(1).通过并行化集合（Parallelized Collections）：可以使用SparkContext的parallelize方法将一个已有的集合转换为RDD。基本语法：parallelize(collection, numSlices=None)基

overfit同步小助手 2024-05-26 06:04:06 0 收藏

大数据分层存储架构：ODS、DWD、DWM与DWS详解

通过这种分层存储结构，大数据系统可以更好地满足不同层次的数据需求，提高数据处理和分析的效率。同时，各层之间的数据流动和交互也变得更加清晰和可控，有助于减少数据冗余和错误，提高数据质量。在大数据领域中，ODS、DWD、DWM和DWS代表了数据仓库的不同层次，它们共同构成了大数据的分层存储结构。这种结构

overfit同步小助手 2024-05-26 00:03:50 0 收藏

Spark运行流程及架构设计

【代码】Spark运行流程及架构设计。

overfit同步小助手 2024-05-25 21:04:21 0 收藏

孙悟空被压500年也想不出看文档瞬间就会scala和spark以及hadoop

export HADOOP_CONF_DIR=/usr/local/src/hadoop/etc/hadoop #指定hadoop路径。解压tar -zxvf /opt/software/hadoop-2.7.1.tar.gz -C /usr/local/src。export HADOOP_HOME

overfit同步小助手 2024-05-25 20:04:33 0 收藏

震惊Hadoop伪分布式+spark+scala竟如此简单！

验证hdfs：可以登录浏览器地址：192.168.20.11:50070 （ip地址是master的地址）export JAVA_HOME=/opt/jdk #这里是opt目录。修改 hdfs-site.xml 将dfs.replication设置为1。在最后加上export JAVA_

overfit同步小助手 2024-05-25 20:04:13 0 收藏

ubuntu 部署spark

确保机器能够正常上网。首先下载spark安装包，

overfit同步小助手 2024-05-25 19:03:48 0 收藏

spark错误集锦

spark遇到的错误持续更新

overfit同步小助手 2024-05-25 18:03:43 0 收藏

Spark编程基础

RDD算子分为转换（Transformation）算子和行动（ Action）算子，程序运行到转换算子时并不会马上执行转算子，只有碰到行动算子才会真正执行转换算子。

overfit同步小助手 2024-05-25 15:03:43 0 收藏

Spark--Scala基础知识总结(第二章)

Scala会区分不同类型的值，并且会基于使用值的方式确定最终结果的数据类型，这称为类型推断Scala使用类型推断可以确定混合使用数据类型时最终结果的数据类型如在加法中混用Int和Double类型时，Scala将确定最终结果为Double类型，如下图常量在程序运行过程中值不会发生变化的量为常量或值，常

overfit同步小助手 2024-05-25 12:04:03 0 收藏

Spark机器学习库MLlib介绍及实践

Spark MLlib是Apache Spark的机器学习库，提供了常见的机器学习算法和实用程序，包括分类、回归、聚类、协同过滤等。此外，MLlib还提供了丰富的特征处理和模型评估工具，方便用户进行模型调优和性能评估。随着大数据技术的不断发展，机器学习作为数据处理和分析的重要手段，也得到了广泛的关注

overfit同步小助手 2024-05-25 09:03:51 0 收藏

Spark SQL编程初级实践

【代码】Spark SQL编程初级实践。

overfit同步小助手 2024-05-25 09:03:41 0 收藏

Spark 为什么比 Hive 快

由于 MapReduce 的特性，Hive 在处理大规模数据时可能会出现较高的延迟，因为它需要频繁地将数据写入和读取磁盘，Shuffle 操作会导致花费的时间代价比较大。那么在稳定性方面，Hive 优于 Spark，这是因为在 MR 任务中，数据总是按照块分片进行处理，每块数据都可以独立地读取和处理

overfit同步小助手 2024-05-25 06:03:56 0 收藏

头歌：Spark案例剖析 - 谷歌网页排名引擎PageRank实战

下面我们重点介绍Spark SQL的初始化，数据库的使用，外部数据的导入，从而将网页数据导入数据库中方便之后处理。Spark SQL是Spark自带的数据库，本关你将应用Spark SQL的数据导入工具实现文本数据的导入。总的来说，就是预先给一个网页PR值（此处用PR代替PageRank值），由于P

overfit同步小助手 2024-05-25 05:04:03 0 收藏

（头哥）Spark环境搭建与使用

【代码】Spark环境搭建与使用。

overfit同步小助手 2024-05-25 05:03:31 0 收藏

Spark实战：词频统计

在Spark实战中，我们通过Scala和Python两个版本分别实现了词频统计的功能。首先，我们从文本文件中创建了RDD，然后按空格拆分进行扁平化映射，接着将单词数组映射成二元组数组，之后对二元组数组进行按键归约，最后将词频统计结果按次数降序排列。在分步实现的基础上，我们还可以通过一步命令直接完成整

overfit同步小助手 2024-05-24 20:05:15 0 收藏

spark君第一篇图文讲解Delta源码和实践的文章

手绘了下图所示的kafka知识大纲流程图（xmind文件不能上传，导出图片展现），但都可提供源文件给每位爱学习的朋友《一线大厂Java面试题解析+核心总结学习笔记+最新讲解视频+实战项目源码》点击传送门，即可获取！手绘了下图所示的kafka知识大纲流程图（xmind文件不能上传，导出图片展现），但都

overfit同步小助手 2024-05-24 19:03:57 0 收藏

实验2-spark编程

（1）通过实验掌握Spark的基本编程方法；（2）熟悉RDD到DataFrame的转化方法；（3）熟悉利用Spark管理来自不同数据源的数据。

overfit同步小助手 2024-05-24 15:03:54 0 收藏

深入理解Spark BlockManager：定义、原理与实践

Spark是一个开源的大数据处理框架，其主要特点是高性能、易用性以及可扩展性。在Spark中，BlockManager是其核心组件之一，

overfit同步小助手 2024-05-24 14:04:13 0 收藏

数据仓库 vs 数据湖 vs 湖仓一体：如何基于自身数据策略，选择最合适的数据管理方案？

一文读懂数据仓库、数据湖、湖仓一体的区别，找准更适合的数据策略。结合大型视频流平台、电商、医疗等行业场景深入剖析。

overfit同步小助手 2024-05-24 12:03:31 0 收藏