Spark - overfit.cn

数据仓库—建模方法论—纬度建模星型模型与雪花模型

综上所述，星型模型适用于简单的分析需求和对查询性能有较高要求的场景，而雪花模型适用于复杂的业务需求和对存储空间和灵活性有较高要求的场景。可以发现数据仓库大多数时候是比较适合使用星型模型构建底层数据Hive表，通过大量的冗余来提升查询效率，星型模型对OLAP的分析引擎支持比较友好，这一点在Kylin中

overfit同步小助手 2024-06-15 19:03:49 0 收藏

Hive切换引擎(MR、Tez、Spark)

hive切换计算引擎 mr tez spark

overfit同步小助手 2024-06-15 18:03:36 0 收藏

“Spark+Hive”在DPU环境下的性能测评 | OLAP数据库引擎选型白皮书（24版）DPU部分节选

在奇点云2024年版《OLAP数据库引擎选型白皮书》中，中科驭数联合奇点云针对Spark+Hive这类大数据计算场景下的主力引擎，测评DPU环境下对比CPU环境下的性能提升效果。特此节选该章节内容，与大家共享。

overfit同步小助手 2024-06-15 01:03:46 0 收藏

spark-hive连接操作流程、踩坑及解决方法

hive安装；spark-hive兼容版本编译；spark-sql操作hive表格

overfit同步小助手 2024-06-14 18:03:37 0 收藏

【大数据】Spark使用大全:下载安装、RDD操作、JAVA编程、SQL

一文详解Spark的使用

overfit同步小助手 2024-06-14 14:03:23 0 收藏

Spark 检查点（checkpoint）

Checkpointing可以将RDD从其依赖关系中抽出来，保存到可靠的存储系统（例如HDFS，S3等)，即它可以将数据和元数据保存到检查指向目录中。因此，在程序发生崩溃的时候，Spark可以恢复此数据，并从停止的任何地方开始。开发人员可以是来方法来设置检查点。在使用检查点之前，必须使用方法设置检

overfit同步小助手 2024-06-13 22:03:55 0 收藏

10X空间转录组空间高变基因分析之SPARK

overfit同步小助手 2024-06-13 22:03:29 0 收藏

Hadoop+Spark大数据技术实验8 Spark SQL结构化

示例: gradedf.selectExpr("name", "name as names" ,"upper(Name)","Scala * 10").show(3)- 示例: gradedf.select("Name", "Class","Scala").show(3,false)修改名称：gra

overfit同步小助手 2024-06-13 20:03:37 0 收藏

Spark数据倾斜定位及解决方案

因为自己编写的代码的bug，以及偶然出现的数据异常，也可能会导致内存溢出。此外，倒数第一列显示了每个task处理的数据量，明显可以看到，运行时间特别短的task只需要处理几百KB的数据即可，而运行时间特别长的task需要处理几千KB的数据，处理的数据量差了10倍。：该方案通常无法彻底解决数据倾斜，因

overfit同步小助手 2024-06-13 06:03:29 0 收藏

搭建单机伪分布式Hadoop+spark+scala

hdfs://master#注意这里是ip映射可改为自己的ip地址。/usr/local/src/hadoop/tmp

overfit同步小助手 2024-06-13 03:03:44 0 收藏

实验六 Spark机器学习库MLlib编程初级实践

数据集：下载Adult数据集(http://archive.ics.uci.edu/ml/datasets/Adult)，该数据集也可以直接到本教程官网的“下载专区”的“数据集”中下载。//获取训练集测试集（需要对测试集进行一下处理，adult.data.txt的标签是>50K和50K.和

overfit同步小助手 2024-06-13 02:03:12 0 收藏

【pyspark速成专家】11_Spark性能调优方法2

Spark任务启动后，可以在浏览器中输入进入到spark web UI 监控界面。该界面中可以从多个维度以直观的方式非常细粒度地查看Spark任务的执行情况，包括任务进度，耗时分析，存储分析，shuffle数据量大小等。最常查看的页面是 Stages页面和Excutors页面。Jobs：每一个Ac

overfit同步小助手 2024-06-12 18:03:28 0 收藏

大数据处理（选修）实验课：实验二 Spark Streaming实验

通过编写和执行基于Spark Streaming编程模型的wordcount程序，深入理解Spark Streaming的工作原理，并学会使用Spark框架进行大规模数据处理。

overfit同步小助手 2024-06-12 10:03:55 0 收藏

数据仓库技术及应用——概述

数据仓库是一种面向商务智能(BI) 活动（尤其是分析）的数据管理系统，它仅适用于查询和分析，通常涉及大量的历史数据。在实际应用中，数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。数据仓库的特点 / 优势。

overfit同步小助手 2024-06-12 10:03:50 0 收藏

Spark SQL【基于泰坦尼克号生还数据的 Spark 数据分析处理】

Spark SQL 数据分析案例【泰坦尼克号生还数据分析】

overfit同步小助手 2024-06-12 09:03:42 0 收藏

阿里云 EMR Serverless Spark 版开启免费公测

阿里云 EMR Serverless Spark 版是一款云原生，专为大规模数据处理和分析而设计的全托管 Serverless 产品。它为企业提供了一站式的数据平台服务，包括任务开发、调试、调度和运维等，极大地简化了数据处理的全生命周期工作流程。使用 EMR Serverless Spark 版，企

overfit同步小助手 2024-06-12 07:03:33 0 收藏

数据中台、数据仓库、数据湖的区别和关联

总结：这三者在实际应用中可能相互关联和融合，例如数据中台可以基于数据仓库或数据湖构建，而数据仓库也可以借鉴数据湖的技术和理念来优化其存储和分析能力。

overfit同步小助手 2024-06-12 00:03:41 0 收藏

spark第一篇简介

spark简介,安装以及初步使用

overfit同步小助手 2024-06-11 13:03:34 0 收藏

Spark Sql

/自定义函数})

overfit同步小助手 2024-06-11 10:03:48 0 收藏

Spark Streaming的DStream与窗口操作

DStream是Spark Streaming的核心抽象，它代表了连续的数据流，可以从各种数据源创建，如Kafka、Flume、Socket等。DStream可以看作是一个高级别的抽象，它将实时数据流划分为一系列小的批次（micro-batch），每个批次包含一段时间内的数据。DStream上可以应

overfit同步小助手 2024-06-10 20:03:37 0 收藏