Spark - overfit.cn

如何在 Kubernetes 上部署 Spark

在 Kubernetes 中部署 Spark，可以充分利用 Kubernetes 的容器编排和自动扩展能力，让 Spark 集群能够根据工作负载动态调整。这个过程虽然涉及多个复杂的步骤，但 Kubernetes 的工具链（如 Helm、kubectl 等）以及 Spark 提供的 Kubernete

overfit同步小助手 2024-11-18 02:04:12 0 收藏

【Kafka】集成案例：与Spark大数据组件的协同应用

随着大数据技术的不断发展，实时数据处理和分析成为企业数字化转型的关键需求。Apache Kafka 作为一种高吞吐量的分布式消息队列系统，能够高效地处理大量数据流。而 Apache Spark 作为一种通用的大数据处理框架，提供了丰富的数据处理和分析能力。将 Kafka 与 Spark 结合使用，可

overfit同步小助手 2024-11-17 10:03:29 0 收藏

|动漫爬取|001_djangodjango基于Spark的国漫推荐系统的设计与实现2024_tpd6q1o4

博主介绍：CodeMentor毕业设计领航者、全网关注者30W+群落，InfoQ特邀专栏作家、技术博客领航者、InfoQ新星培育计划导师、Web开发领域杰出贡献者，博客领航之星、开发者头条/腾讯云/AWS/Wired等平台优选内容创作者、深耕Web开发与学生毕业设计实战指导，与高校教育者/资深讲师/

overfit同步小助手 2024-11-17 05:03:47 0 收藏

Spark on YARN：Spark集群模式之Yarn模式的原理、搭建与实践

本文将深入探讨为什么要将 Spark 程序运行在 YARN 上而不是 Spark 自带的 Standalone 集群上，详细介绍 Spark 的 YARN 集群搭建过程，以及在 YARN 模式下不同 deploy mode 的区别，并结合实际测试案例，帮助读者全面理解 Spark on YARN 这

overfit同步小助手 2024-11-16 22:03:21 0 收藏

GitHub Spark：GitHub 推出零代码开发应用的 AI 编程产品

GitHub Spark 是一个基于 AI 的大模型编程产品，允许用户通过自然语言描述来创建和分享微应用程序，无需编写代码，即可在桌面和移动端使用。

overfit同步小助手 2024-11-16 05:03:48 0 收藏

【大数据】Spark Executor内存分配原理与调优

【大数据】Spark Executor内存管理与调优 Executor内存总体布局统一内存管理堆内内存 (On-heap Memory) 堆外内存 (Off-heap Memory) Execution 内存和 Storage 内存动态占用机制任务内存管理(Task Memory M

overfit同步小助手 2024-11-16 05:03:22 0 收藏

极速梳理Spark的四种分词工具

Spark是一套巡行效率很高，速度很快又能提供多种计算场景的框架，它将数据拉到内存里面，并基于RDD（弹性分布式数据集）进行运算，这就导致它内存效率很高很快。而在Spark框架下，有四种常用的中文分词工具，分别是：hanLP、ansj、jieba和fudannlp。以下是对于这四种工具

overfit同步小助手 2024-11-15 15:03:49 0 收藏

Spark 广播变量（Broadcast Variable）原理及源码分析

Spark 广播变量通过序列化、分块、缓存和分层传播的机制，大大减少了任务之间的数据传输开销，提高了性能。

overfit同步小助手 2024-11-15 11:03:35 0 收藏

基于科大讯飞星火大模型Spark 4.0 Ultra的微信聊天机器人搭建教程

目前，办公场景中，员工需要与不同的人交谈，而微信作为其中的桥梁。随着如今工作越来越繁重，面对不同的人进行交谈已经是应接不暇，急需一个AI聊天机器人来帮助人们从繁忙的聊天中解放出来。

overfit同步小助手 2024-11-15 10:03:39 0 收藏

2023_Spark_实验十：Centos_Spark Local模式部署

参考这篇博客：【Centos8_配置单节点伪分布式Spark环境】_centos8伪分布式环境搭建-CSDN博客

overfit同步小助手 2024-11-14 21:03:44 0 收藏

数据仓库构建的两种方法：自上向下、自下向上

数据仓库是在统一模式下组织的数据源异构集合。构建数据仓库有两种方法：自上而下法和自下而上法解释如下。

overfit同步小助手 2024-11-14 16:03:52 0 收藏

大数据——数据预处理

数据预处理（data preprocessing）是指在主要的处理以前对数据进行的一系列处理，如对大部分地球物理面积性观测数据在进行转换或增强处理之前，首先将不规则分布的测网经过插值转换为规则网的处理，以利于计算机的运算。数据预处理是大数据分析中不可或缺的一环，涉及数据清洗、集成、规约和变换等多个步

overfit同步小助手 2024-11-14 09:03:46 0 收藏

七，Linux基础环境搭建（CentOS7）- 安装Scala和Spark

Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。配置文件spark-env.sh，进入spa

overfit同步小助手 2024-11-14 07:03:48 0 收藏

DataGrip远程连接Spark-sql，和使用beeline命令来连接hive

#DataGrip连接Spark SQL #sparksql与hive整合后，使用beeline命令进入hive

overfit同步小助手 2024-11-14 04:03:36 0 收藏

《深入浅出Apache Spark》系列③：Spark SQL解析层优化策略与案例解析

本系列是Spark系列分享的第三期。第一期分享了SparkCore的一些基本原理和一些基本概念，包括一些核心组件。Spark的所有组件都围绕SparkCore来运转，其中最活跃的一个上层组件是SparkSQL。第二期分享则专门介绍了SparkSQL的基本架构和原理。从第三期开始，后续的分享都围绕着S

overfit同步小助手 2024-11-13 22:03:42 0 收藏

Spark环境搭建

本文是使用VMware Workstation搭建Spark环境，操作系统为CentOS 7的详细步骤

overfit同步小助手 2024-11-13 17:03:23 0 收藏

LLMs之Code：Github Spark的简介、安装和使用方法、案例应用之详细攻略

LLMs之Code：Github Spark的简介、安装和使用方法、案例应用之详细攻略目录Github Spark的简介Github Spark的安装和使用方法Github Spark的案例应用Github Spark的简介2024年10月30日，GitHub 重磅发布GitHub Spark 是

overfit同步小助手 2024-11-13 00:03:41 0 收藏

基于Spark的电信用户行为分析系统的设计与实现

一、系统概述该电信用户行为分析系统旨在利用先进的技术手段，深入挖掘电信用户的行为数据，为电信运营商提供决策支持和精准营销服务。系统采用 Spring Boot 框架构建稳定的后端服务，并结合 Spark 强大的大数据处理能力。二、主要功能数据采集：从电信运营商的各种数据源中收集用户行为数据，包括通话

overfit同步小助手 2024-11-12 01:04:11 0 收藏

头歌平台Spark分类分析小节测试（8.2小节测试）

打开右侧代码文件窗口，在至区域补充代码，完成任务。读取文件中的内容，使用二项逻辑斯蒂回归进行二分类分析，过滤类。

overfit同步小助手 2024-11-11 05:03:23 0 收藏

Spark的集群环境部署

分享了spark的两个集群模式的配置方法

overfit同步小助手 2024-11-11 04:03:48 0 收藏