月入五万技巧spark，不够五万我来给你补头都大了

spark概述

spark是什么？

1.1 Spark基础
spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎

Spark Core 中提供了 Spark 最基础与最核心的功能
Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL，用户可以使用
SQL 或者 Apache Hive 版本的 SQL 方言（HQL）来查询数据。
Streaming 是 Spark 平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的 API。
HBase 是一个基于 HDFS 的分布式数据库，擅长实时地随机读/写超大规模数据集。

Spark就是在传统的MapReduce计算框架的基础上，利用其计算过程的优化，从而大大加快了数据分析、挖掘的运行和读写速度，并将计算单元缩小到更适合并行计算和重复使用的RDD计算模型。

Spark是一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集（Resilient DistributedDatasets），提供了比MapReduce丰富的模型，可以快速在内存中对数据集进行多次迭代，来支持复杂的数据挖掘算法和图形计算算法。

Spark和Hadoop的根本差异是多个作业之间的数据通信问题:Spark多个作业之间数据通信是基于内存，而Hadoop是基于磁盘。
SparkTask的启动时间快。Spark采用fork线程的方式，而Hadoop采用创建新的进程的方式。
Spark只有在shuffle的时候将数据写入磁盘，而Hadoop中多个MR作业之间的数据交互都要依赖于磁盘交互
Spark的缓存机制比HDFS的缓存机制高效。
Spark确实会比MapReduce 更有优势。但是Spark是基于内存的，所以在实际的生产环境中，由于内存的限制，可能会由于内存资源不够导致Job执行失败，此时，MapReduce其实是一个更好的选择，所以Spark 并不能完全替代MR。

ØSpark Core

Spark的核心，提供底层框架及核心支持。

ØBlinkDB

一个用于在海量数据上进行交互式SQL查询的大规模并行查询引擎，允许用户通过权衡数据精度缩短查询响应时间，数据的精度将被控制在允许的误差范围内。

ØSpark SQL

可以执行SQL查询，支持基本的SQL语法和HiveQL语法，可读取的数据源包括Hive、HDFS、关系数据库（如MySQL）等。

ØMLBase

是Spark生态圈的一部分，专注于机器学习领域，学习门槛较低。

MLBase由4部分组成：MLlib、MLI、ML Optimizer和MLRuntime。

MLlib部分算法如下。

Ø
分析Spark GraphX

图计算的应用在很多情况下处理的数据量都是很庞大的。如果用户需要自行编写相关的图计算算法，并且在集群中应用，难度是非常大的。而使用GraphX即可解决这个问题，因为它内置了许多与图相关的算法，如在移动社交关系分析中可使用图计算相关算法进行处理

Ø
SparkR

AMPLab发布的一个R语言开发包，使得R语言编写的程序不只可以在单机运行，也可以作为Spark的作业运行在集群上，极大地提升了R语言的数据处理能力。

 广点通是最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势，围绕“数据+算法+系统”这套技术方案，实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法，最终成功应用于广点通pCTR投放系统上，支持每天上百亿的请求量。

Yahoo将Spark用在Audience Expansion中。Audience Expansion是广告中寻找目标用户的一种方法，首先广告者提供一些观看了广告并且购买产品的样本客户，据此进行学习，寻找更多可能转化的用户，对他们定向广告。Yahoo采用的算法是Logistic Regression。同时由于某些SQL负载需要更高的服务质量，又加入了专门跑Shark的大内存集群，用于取代商业BI/OLAP工具，承担报表/仪表盘和交互式/即席查询，同时与桌面BI工具对接。

标签： spark 大数据分布式

本文转载自: https://blog.csdn.net/jia6683/article/details/136451926
版权归原作者 jia6683 所有，如有侵权，请联系我们删除。

月入五万技巧spark，不够五万我来给你补头都大了

发表评论

“月入五万技巧spark，不够五万我来给你补头都大了”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航

月入五万技巧spark，不够五万我来给你补 头都大了

发表评论

“月入五万技巧spark，不够五万我来给你补 头都大了”的评论:

关于作者

overfit同步小助手

相关阅读

文章导航

月入五万技巧spark，不够五万我来给你补头都大了

“月入五万技巧spark，不够五万我来给你补头都大了”的评论: