大数据 Spark - overfit.cn

摸鱼大数据——Spark基础——Spark On Yarn环境配置和部署

export/data/spark_project/spark_base/05_词频统计案例_spark_on_yarn运行.py。/export/data/spark_project/spark_base/05_词频统计案例_spark_on_yarn运行.py。/export/data/spar

overfit同步小助手 2024-08-08 21:03:43 0 收藏

Kafka和Spark Streaming的组合使用学习笔记（Spark 3.5.1）

二、启动Kafaka1.首先需要启动Kafka，打开一个终端，输入下面命令启动Zookeeper服务：注意：以上现象是Zookeeper服务器已经启动，正在处于服务状态。不要关闭！注意：同样不要误以为死机了，而是Kafka服务器已经启动，正在处于服务状态。2.然后，可以执行如下命令，查看名称为“wo

overfit同步小助手 2024-08-08 16:03:49 0 收藏

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

但是这样有个问题是当集群有多个用户运行Hive查询时会有问题，应避免为每个用户的会话分配固定数量的executor，因为executor分配后不能回其他用户的查询使用，如果有空闲的executor，在生产环境中，计划分配好executor可以更充分的利用Spark集群资源。启动并发GC周期时的堆内存

overfit同步小助手 2024-08-08 13:03:36 0 收藏

深入解析数据仓库ADS层-从理论到实践的全面指南

探索ADS层的核心概念、设计原则和实现方法。学习如何构建高性能、安全可靠的数据应用层，包括星型模型设计、查询优化、增量更新等关键技术。掌握性能调优、数据生命周期管理和持续优化的最佳实践。洞察ADS层未来趋势：实时数据集市、机器学习集成、图数据模型和自然语言查询接口。无论您是数据工程师、分析师还是架构

overfit同步小助手 2024-08-08 08:03:47 0 收藏

写一个spark的java程序

通过本篇博客，我们介绍了如何编写一个简单的Spark的Java程序。在实际开发中，您可以根据需求和数据处理逻辑编写更复杂的Spark作业，运用Spark强大的计算能力来处理大规模数据集。希望这篇博客能帮助您快速入门Spark的Java编程，享受Spark带来的高效和便利！

overfit同步小助手 2024-08-08 05:03:44 0 收藏

基于Spark的实时计算服务的流程架构

基于Spark的实时计算服务的流程架构包括数据源、数据接收、实时计算框架（Spark Streaming或Structured Streaming）、数据处理、数据存储、数据输出以及监控和管理多个组件。每个组件在整个流程中都扮演着关键的角色，确保数据从采集到处理再到输出的高效和可靠。

overfit同步小助手 2024-08-08 01:03:46 0 收藏

《基于 CDC、Spark Streaming、Kafka 实现患者指标采集》

本篇文章分享一下博主所在公司的患者指标采集的解决方案。主要是基于实现，由于涉及公司隐私，内容主要以方案介绍为主，有需要探讨的可以留言。好，让我们开始。上文介绍了博主所在公司的《基于 CDC、Spark Streaming、Kafka 实现患者指标采集》方案。💗 后续会逐步分享企业实际开发中的实战经

overfit同步小助手 2024-08-07 19:03:50 0 收藏

Spark实时（三）：Structured Streaming入门案例

我们使用Structured Streaming来监控socket数据统计WordCount。

overfit同步小助手 2024-08-07 11:03:34 0 收藏

Spark学习

系统的学习spark

overfit同步小助手 2024-08-07 00:03:57 0 收藏

面试专区|【100道Spark高频题整理(附答案背诵版)】

Spark 是一个开源的大数据处理框架，它被设计来进行高速度、通用性和易用性的大规模数据处理。Spark 最初由加州大学伯克利分校的AMPLab 开发，后来成为Apache软件基金会的顶级项目。快速性：Spark 使用了内存计算技术，相较于Hadoop的MapReduce，它能更快地处理大规模数据集

overfit同步小助手 2024-08-06 23:03:10 0 收藏

Hive/Spark窗口函数

结果中，对于每一行的last_value的结果都是当前值，并不分区中按salary升序的最后一个值。前面在提到last_value时，特意强调了该函数的结果并不是分区中的最后一个值，结合上述介绍的window specification再来看下该函数的结果值。注意，默认情况下last_value取的

overfit同步小助手 2024-08-06 20:04:01 0 收藏

Spark概述及Scala搭建操作步骤

现在Apache Spark已经形成一个丰富的生态圈，包括官方和第三方开发的组件或工具。Spark生态圈也称为伯克利数据分析栈，由AMPLab打造，是致力于在算法，机器，人之间通过大规模集成展现大数据应用的平台。1.Spark Core：spark的核心，提供底层框架及核心支持。2.BlinkDB:

overfit同步小助手 2024-08-06 20:03:40 0 收藏

Spark复习

spark在内存中的运行速度是Hadoop mapreduce 运行速度的100多倍，spark在磁盘中的运行速度是Hadoop mapreduce运行速度的10多倍。spark用内存，Hadoop mapreduce用硬盘。spark支持使用Scala、python、java、R等语言快速编写应用

overfit同步小助手 2024-08-06 15:03:55 0 收藏

一篇文章教你如何搭建scala和spark（超详细）

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发的通用内存并行计算框架Spark得到了众多大数据公司的支持，这些公司包括Hortonworks、IBM、Intel、Clo

overfit同步小助手 2024-08-06 10:03:32 0 收藏

spark on k8s两种方式的原理与对比

Spark on k8s Operator 更适合大规模、需要自动化和集中管理的场景。它利用 Kubernetes 的原生功能，实现自动化管理和配置集中化，虽然增加了一些复杂性，但在动态和多租户环境中表现出色。Spark on k8s 适合简单、直接的 Spark 作业提交和管理场景，特别是对于那些

overfit同步小助手 2024-08-06 10:03:27 0 收藏

基于Spark的电商推荐系统（高分毕设）

今天分享的是一套基于SSM技术+spark技术的电影推荐系统包含了爬虫、电影网站（前端和后端）、后台管理系统以及推荐系统（Spark）。

overfit同步小助手 2024-08-06 04:03:28 0 收藏

Spark转化算子

这个操作是非常昂贵的，最好用aggregateByKey 和reduceByKey代替。就是在shuffle前先进行计算，这样可以减少shuffle的数据。map和mapPartitions及mapPartitionsWithIndex区别。

overfit同步小助手 2024-08-06 03:03:48 0 收藏

Spark核心知识要点（三）

overfit同步小助手 2024-08-06 02:03:53 0 收藏

Scala和Spark的介绍

Spark最初由美国加州伯克利大学( UC Berkelcy)的AMP实验室于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。

overfit同步小助手 2024-08-06 02:03:44 0 收藏

一文详解数据仓库、数据湖、湖仓一体和数据网格

本文对数据仓库、数据湖、湖仓一体、数据网格四个技术概念进行了辨析，并对它们的优势和局限给出了对比介绍。

overfit同步小助手 2024-08-06 00:04:12 0 收藏