大数据 Spark - overfit.cn

【Apache Spark 】第 7 章优化和调优 Spark 应用程序

在上一章中，我们详细介绍了如何在 Java 和 Scala 中使用数据集。我们探索了 Spark 如何管理内存以适应 Dataset 构造，并将其作为其统一和高级 API 的一部分，并且我们考虑了与使用 Datasets 相关的成本以及如何降低这些成本。除了降低成本，我们还想考虑如何优化和调整 Sp

overfit同步小助手 2022-10-22 07:22:47 0 收藏

【Apache Spark 】第 9 章使用 Apache Spark构建可靠的数据湖

在前面的章节中，您学习了如何轻松有效地使用 Apache Spark 构建可扩展的高性能数据处理管道。然而，在实践中，表达处理逻辑只解决了构建管道的端到端问题的一半。对于数据工程师、数据科学家或数据分析师来说，构建管道的最终目标是查询处理过的数据并从中获得洞察力。存储解决方案的选择决定了数据管道的端

overfit同步小助手 2022-10-22 07:22:42 0 收藏

[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

MLlib是Spark提供的可扩展的机器学习库，其特点是采用较为先进的迭代式、内存存储的分析计算，使得数据的计算处理速度大大高于普通的数据处理引擎。MLlib的主要数据类型包括本地向量、标注点、本地矩阵。本地向量和本地矩阵是提供公共接口的简单数据模型，Breeze和Jblas提供了底层的线性代数运算

overfit同步小助手 2022-10-19 08:02:38 0 收藏

[机器学习、Spark]Spark MLlib机器学习

机器学习是一门多领域的交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能.重新组织已有的知识结构使之不断改善自身的性能。机器学习分为2类：（1）有监督学习通过已有的训练样本(即已知数据以及其对应的输出)训练得到一个

overfit同步小助手 2022-10-18 08:02:34 0 收藏

[Spark、hadoop]Spark Streaming整合kafka实战

Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写，是一个基于Zookeeper系统的分布式发布订阅消息系统，该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。①、Kafka的众多优点：其优点具体：(1)解耦。Kafka 具备消息系

overfit同步小助手 2022-10-15 08:02:36 0 收藏

[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每

overfit同步小助手 2022-10-13 07:07:23 0 收藏

【Apache Spark 】第 2 章下载 Apache Spark并开始使用

在本章中，我们将帮助您设置 Spark，并通过三个简单的步骤开始编写您的第一个独立应用程序。我们将使用本地模式，其中所有处理都在 Spark shell 中的单台机器上完成——这是一种学习框架的简单方法，为迭代执行 Spark 操作提供快速反馈循环。使用 Spark shell，您可以在编写复杂的

overfit同步小助手 2022-10-11 07:22:46 0 收藏

【Apache Spark 】第 1 章Apache Spark 简介：统一分析引擎

本章列出了 Apache Spark 的起源及其基本理念。它还调查了项目的主要组件及其分布式架构。如果您熟悉 Spark 的历史和高级概念，可以跳过本章。

overfit同步小助手 2022-10-11 07:22:43 0 收藏

【精通Spark系列】弹性分布式数据集RDD快速入门篇

本篇文章属于Spark系列文章，专栏将会记录从spark基础到进阶的内容，，内容涉及到Spark的入门集群搭建，核心组件，RDD，算子的使用，底层原理，SparkCore，SparkSQL，SparkStreaming等，

overfit同步小助手 2022-10-05 07:06:21 0 收藏

[平台运维、Hadoop]Spark Streaming 实时计算框架

在大数据技术中,有离线计算、批量计算、实时计算以及流式计算，其中，离线计算和实时计算指的是数据处理的延迟;批量计算和流式计算指的是数据处理的方式。Spark Streming是构建在Spark上的实时计算框架，且是对Sparks Core API的一个扩展,它能够实现对流数据进行实时处理，并具有很好

overfit同步小助手 2022-10-03 07:06:05 0 收藏

scala 警告: Failed to save history 已解决

scala 警告: Failed to save history

overfit同步小助手 2022-09-22 10:22:43 0 收藏

hive on spark 执行sql报错

报错信息ERROR : FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed due to: Job 3 cancelled。这个是因为

overfit同步小助手 2022-09-22 10:22:35 0 收藏

Delta Lake 是什么？

Delta Lake 是一个开源项目，它可以运行在你现有的数据湖之上，可以在数据湖上构建湖仓一体架构，并且与 Apache Spark API 完全兼容。

overfit同步小助手 2022-09-13 10:24:49 0 收藏

spark3总结——分区数对带有初始值聚合操作的影响

overfit同步小助手 2022-09-10 07:54:15 0 收藏

Spark SQL操作数据源

一、操作MySql二、操作HIVE数据库①准备环境②创建表类型③插入数据④Spark SQL 操作Hive数据库①Spark读取MySqlStep1 登录SQLStep2 创建数据库，并选择数据库Step3 创建表Step4 插入数据到表中。

overfit同步小助手 2022-09-10 07:54:07 0 收藏

Kakfa怎么保证消息的一致性

Kafka的也存在Leader和Follow节点，这样就会有一致性问题。

overfit同步小助手 2022-09-08 07:54:13 0 收藏

大数据随记 —— DataFrame 与 RDD 之间的相互转换

在 Scala 中，使用 case class 类型导入 RDD 并转换为 DataFrame，通过 case class 创建 Schema，case class 的参数名称会被利用反射机制作为列名。通过 Spark SQL 的接口创建 RDD 的 Schema，这种方式会让代码比较冗长。这种方法

overfit同步小助手 2022-09-02 14:54:04 0 收藏

大数据项目中数据倾斜

overfit同步小助手 2022-09-02 07:11:07 0 收藏

大数据精准营销数据分析处理（一）

overfit同步小助手 2022-09-01 07:11:17 0 收藏

Hadoop，Spark，Tez的区别与联系

本文主要介绍，三种计算引擎的的各自优势，与区别，可以帮助你在学习过程中解决学习中的疑惑！

overfit同步小助手 2022-08-28 07:55:20 0 收藏