大数据 Spark - overfit.cn

[机器学习、Spark]Spark MLlib机器学习

机器学习是一门多领域的交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能.重新组织已有的知识结构使之不断改善自身的性能。机器学习分为2类：（1）有监督学习通过已有的训练样本(即已知数据以及其对应的输出)训练得到一个

overfit同步小助手 2022-10-18 08:02:34 0 收藏

[Spark、hadoop]Spark Streaming整合kafka实战

Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写，是一个基于Zookeeper系统的分布式发布订阅消息系统，该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。①、Kafka的众多优点：其优点具体：(1)解耦。Kafka 具备消息系

overfit同步小助手 2022-10-15 08:02:36 0 收藏

[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每

overfit同步小助手 2022-10-13 07:07:23 0 收藏

【Apache Spark 】第 2 章下载 Apache Spark并开始使用

在本章中，我们将帮助您设置 Spark，并通过三个简单的步骤开始编写您的第一个独立应用程序。我们将使用本地模式，其中所有处理都在 Spark shell 中的单台机器上完成——这是一种学习框架的简单方法，为迭代执行 Spark 操作提供快速反馈循环。使用 Spark shell，您可以在编写复杂的

overfit同步小助手 2022-10-11 07:22:46 0 收藏

【Apache Spark 】第 1 章Apache Spark 简介：统一分析引擎

本章列出了 Apache Spark 的起源及其基本理念。它还调查了项目的主要组件及其分布式架构。如果您熟悉 Spark 的历史和高级概念，可以跳过本章。

overfit同步小助手 2022-10-11 07:22:43 0 收藏

【精通Spark系列】弹性分布式数据集RDD快速入门篇

本篇文章属于Spark系列文章，专栏将会记录从spark基础到进阶的内容，，内容涉及到Spark的入门集群搭建，核心组件，RDD，算子的使用，底层原理，SparkCore，SparkSQL，SparkStreaming等，

overfit同步小助手 2022-10-05 07:06:21 0 收藏

[平台运维、Hadoop]Spark Streaming 实时计算框架

在大数据技术中,有离线计算、批量计算、实时计算以及流式计算，其中，离线计算和实时计算指的是数据处理的延迟;批量计算和流式计算指的是数据处理的方式。Spark Streming是构建在Spark上的实时计算框架，且是对Sparks Core API的一个扩展,它能够实现对流数据进行实时处理，并具有很好

overfit同步小助手 2022-10-03 07:06:05 0 收藏

scala 警告: Failed to save history 已解决

scala 警告: Failed to save history

overfit同步小助手 2022-09-22 10:22:43 0 收藏

hive on spark 执行sql报错

报错信息ERROR : FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job failed due to: Job 3 cancelled。这个是因为

overfit同步小助手 2022-09-22 10:22:35 0 收藏

Delta Lake 是什么？

Delta Lake 是一个开源项目，它可以运行在你现有的数据湖之上，可以在数据湖上构建湖仓一体架构，并且与 Apache Spark API 完全兼容。

overfit同步小助手 2022-09-13 10:24:49 0 收藏

spark3总结——分区数对带有初始值聚合操作的影响

overfit同步小助手 2022-09-10 07:54:15 0 收藏

Spark SQL操作数据源

一、操作MySql二、操作HIVE数据库①准备环境②创建表类型③插入数据④Spark SQL 操作Hive数据库①Spark读取MySqlStep1 登录SQLStep2 创建数据库，并选择数据库Step3 创建表Step4 插入数据到表中。

overfit同步小助手 2022-09-10 07:54:07 0 收藏

Kakfa怎么保证消息的一致性

Kafka的也存在Leader和Follow节点，这样就会有一致性问题。

overfit同步小助手 2022-09-08 07:54:13 0 收藏

大数据随记 —— DataFrame 与 RDD 之间的相互转换

在 Scala 中，使用 case class 类型导入 RDD 并转换为 DataFrame，通过 case class 创建 Schema，case class 的参数名称会被利用反射机制作为列名。通过 Spark SQL 的接口创建 RDD 的 Schema，这种方式会让代码比较冗长。这种方法

overfit同步小助手 2022-09-02 14:54:04 0 收藏

大数据项目中数据倾斜

overfit同步小助手 2022-09-02 07:11:07 0 收藏

大数据精准营销数据分析处理（一）

overfit同步小助手 2022-09-01 07:11:17 0 收藏

Hadoop，Spark，Tez的区别与联系

本文主要介绍，三种计算引擎的的各自优势，与区别，可以帮助你在学习过程中解决学习中的疑惑！

overfit同步小助手 2022-08-28 07:55:20 0 收藏

Dataset 的基础知识和RDD转换为DataFrame

Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽线结构，最懂在Spark2.0版本被定义成Spark新特性。RDD， DataFrame，Dataset数据对比1 RDD数据没有数据类型和元数据信息2 DataFrame添加了Schema信息，每一行的类型固定为Row，每一列

overfit同步小助手 2022-08-26 08:17:36 0 收藏

DataFrame基础知识

DataFrame：可以看出分布式Row对象的集合，在二维表数据集的每一列都带有名称和类型，这些就是schema（元数据）Select：col：某一列，as：重命名 filter：过滤groupBy() ，对记录进行分组sort排序。，并且可以从很多数据源中创建，如结构化文件、外部数据库、Hive

overfit同步小助手 2022-08-23 08:17:43 0 收藏

大数据ClickHouse（十八）：Spark 写入 ClickHouse API

SparkCore写入ClickHouse，可以直接采用写入方式。下面案例是使用SparkSQL将结果存入ClickHouse对应的表中。

overfit同步小助手 2022-08-23 08:17:31 0 收藏