大数据技术之SparkCore

Spark Core是spark的核心与基础,实现了Spark的基本功能,包含任务调度,内存管理,错误恢复与存储系统交互等模块Spark Core中包含了对Spark核心API——RDD API(弹性分布式数据集)的定义:RDD表示分布在多个计算节点上可以并行操作的元素集合,是spark的核心抽象。

【大数据入门核心技术-Spark】(七)执行Spark任务的两种方式:spark-submit和spark-shell

引入:spark-shell交互式编程确实很方便我们进行学习测试,但是在实际中我们一般是使用IDEA开发Spark应用程序打成jar包交给Spark集群/YARN去执行,所以我们还得学习一个spark-submit命令用来帮我们提交jar包给spark集群/YARN。引入:之前我们使用提交任务都是使

虚拟机ping主机和外网ping不通的解决办法

虚拟机ping主机和外网ping不通的解决办法和配置拷贝的centos的虚拟机

Spark - 介绍及使用 Scala、Java、Python 三种语言演示

分布式机器学习的框架,可以使用许多常见的机器学习和统计算法,例如:支持向量机、 回归、 线性回归、 逻辑回归、 决策树、 朴素贝叶斯、汇总统计、相关性、分层抽样、 假设检定、随即数据生成等,简化大规模机器学习。的快速调度能力来运行流分析,通过时间窗口截取小批量的数据并可以对之运行。类似,Spark

Spark在Yarn集群的两种提交模式

spark on yarn

spark环境搭建(idea版本)

spark环境搭建(idea版本)为了对初学者可以进行友好的交流,本文通过windows的idea快速搭建spark的运行环境,让初学者可以快速的感受spark带来的惊艳感受。Linux效果更佳,但是对初学者没那么友好,咱们先搞定windows之后再琢磨就会容易很多。那么接下来如果有环境的话大概5~

windows搭建spark环境

windows 安装spark ,scala(spark需要scala环境),spark,hadoop 安装

大数据开源框架之基于Spark的气象数据处理与分析

本次实验所采用的数据,从中央气象台官方网站(网址:http://www.nmc.cn/)爬取,主要是最近24小时各个城市的天气数据,包括时间整点、整点气温、整点降水量、风力、整点气压、相对湿度等。正常情况每个城市对应24条数据(每个整点一条)。数据规模达到2412个城市,57888条数据,有部分城市

【漏洞复现】Apache Spark 未授权访问漏洞

Apache Spark 未授权访问漏洞,详情请点击内容进入......

Spark系列之Spark的数据倾斜

Spark系列之Spark的数据倾斜

windows10搭建spark本地开发环境

注意:Spark3.0、Spark3.1是由Scala2.12预编译,但是Spark 3.2+是采用Scala 2.13预编译。

【无标题】

123

Spark SQL简介

Spark SQL简介一、从Shark说起1、在这之前我们要先理解Hive的工作原理:Hive是一个基于Hadoop的数据仓库工具,提供了类似于关系数据库SQL的查询语言——HiveSQL,用户可以通过HiveSQL语句快速实现简单的MapReduce统计,Hive自身可以自动将HiveSQL语句快

Spark任务中Task数量确定和一些总结

Spark任务中Task数量如何确定?

Spark SQL【博学谷学习记录】

spark sql

Spark的五种提交作业方式

该文介绍了Spark的五种作业提交方式

spark 安装详细步骤

3、在目录/home/hadoop/software下解压:tar -zxvf spark-1.6.2-bin-hadoop2.6.tgz。4、进入conf目录,复制文件cp spark-env.sh.template spark-env.sh。6、cd 切换到sbin目录下使用 ./start-a

spark sql(五)sparksql支持查询哪些数据源,查询hive与查询mysql的区别

sparksql支持查询的数据源类型,以及查询mysql和查询hive的源码过程简析

Spark环境搭建(Hadoop YARN模式)

按照前面环境部署中所学习的,如果我们想要一个稳定的生产Spark环境,那么最优的选择就是构建:HA StandAlone集群。不过在企业中, 服务器的资源总是紧张的,许多企业不管做什么业务,都基本上会有Hadoop集群。也就是会有YARN集群。对于企业来说,在已有YARN集群的前提下在单独准备Spa

大数据技术之——zookeeper的安装部署

Zookeeper是一个`开源的分布式的`,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解,`是一个基于观察者模式设计的分布式服务管理框架`,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper就负责通知已经在Z

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈