Spark - overfit.cn

解压tar -zxvf spark-2.4.8-bin-hadoop2.7.tgz -C /opt/moudel/官网地址：https://archive.apache.org/dist/spark/重命名mv spark-2.4.8-bin-hadoop2.7 spark-2.4.8。进入/usr

overfit同步小助手 2023-03-31 08:04:37 0 收藏

Spark 连接 Mongodb 批量读取数据

spark 读取 mongodb 数据

overfit同步小助手 2023-03-31 01:05:16 0 收藏

基于大数据平台的毕业设计

前言最近有很多人问我，大数据专业有什么好的毕设项目，我就简单的回复了一下。也有直接问我要源码的…所以就抽空写一写自己毕业设计的一个思路，大数据是我实习自学的，这个思路是我当初自己想的，就当做一份参考吧。在我毕业那年，同学们毕业设计大多都是以Java语言开发的各种管理系统、xx商城为主，包括我刚开始的

overfit同步小助手 2023-03-30 22:05:13 0 收藏

hiveSql正则方式提取字段中的内容

regexp_extract方法正则提取string中的内容

overfit同步小助手 2023-03-30 22:04:28 0 收藏

spark为什么比hadoop快

spark为什么快

overfit同步小助手 2023-03-30 20:05:12 0 收藏

hive sql 和 spark sql的区别

要知道两种sql的区别，先要知道什么是hive，什么是spark一、什么是hive，什么是spark（一）hive1、hive在hadoop中承担了多种角色，每种角色承担特定的功能。定语角色作用优点基于Hadoop的数仓工具查询引擎可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能

overfit同步小助手 2023-03-30 18:04:22 0 收藏

基于Apache Hudi 和 Apache Spark Sql 的近实时数仓架构之宽表建设

无论是在lamda架构还是kappa架构中，实时计算通常是使用flink+mq来实现的，而在这些场景中涉及到多张表join时，一般我们的使用方法是多张流表join，或者流表维表的方式join。但无论是那种方式都会存在一些问题，比如窗口开的过小，数据晚到导致数据丢失。窗口开的过大，内存占用过高，成本高

overfit同步小助手 2023-03-30 17:04:46 0 收藏

Spark 的学习笔记

Apache Spark 是一个快速的，多用途的集群计算系统。它提供了 Java，Scala，Python 和 R 的高级 API，以及一个支持通用的执行图计算的优化过的引擎，它还支持一组丰富的高级工具，包括使用 SQL 处理结构化数据的 Spark SQL，用于机器学习的 MLlib，用于图计算的

overfit同步小助手 2023-03-30 16:04:45 0 收藏

20天学习Spark（1）之Spark UI的使用

Spark UI的使用方式

overfit同步小助手 2023-03-30 15:05:20 0 收藏

Spark 任务提交流程说明

本篇主要阐述 Spark 任务提交的流程，其主要目的在于通过了解 Spark 任务提交可以清楚大概的流程，并知道每一步是做什么；当遇到问题可以快速的知道是什么环节或者哪一步骤出现了问题，及时定位到问题并解决。目前Spark官方支持五中集群管理模式，分别是 Standalone、Yarn、Mesoes

overfit同步小助手 2023-03-30 15:04:40 0 收藏

Spark的基本概念与架构

overfit同步小助手 2023-03-30 14:04:49 0 收藏

Spark读取CSV文件（Scala）

header: 是否指定首行作为schema。format: 指定读取的文件格式：csv。schema: 指定数据字段的格式。

overfit同步小助手 2023-03-30 09:05:00 0 收藏

Spark性能优化三 checkpoint

Spark性能优化三 checkpoint机制的原理和使用

overfit同步小助手 2023-03-30 08:05:46 0 收藏

spark入门案例以及sbt安装与打包（Linux环境）

Spark-SQL连接Hive 的五种方法

spark3.3.0安装&部署过程

分布式学习-1 Hadoop Spark安装

Flink知识点总结 Flink简介

PySpark 相关基础知识

spark安装教程

Spark 下载安装配置详解文档 (spark-2.4.8-bin-hadoop2.7.tgz)