大数据 - overfit.cn

行业应用: Spark在各行业中的应用与案例

1.背景介绍Spark是一个开源的大数据处理框架，它可以处理大量数据并提供高性能、高可扩展性和高可靠性的数据处理能力。Spark已经被广泛应用于各个行业，包括金融、电商、医疗、制造业等。在这篇文章中，我们将讨论Spark在各个行业中的应用和案例。1.1 Spark的优势Spark的优势在于其高性能、

overfit同步小助手 2024-03-09 13:03:19 0 收藏

Flink ExecuteGraph构建源码解析

JobManager(JobMaster) 根据 JobGraph 生成 ExecutionGraph。ExecutionGraph是JobGraph 的并行化版本，是调度层最核心的数据结构。

overfit同步小助手 2024-03-09 11:03:34 0 收藏

数据开发必知必会 - 数据仓库理论总结

数据仓库开发=90%的业务领域知识+10%的大数据/后端开发技术数据仓库组成=模型建设+数据治理+需求满足10年互联网研发经验，数据平台总监及投放增长研发负责人，负责数据平台期间，完成埋点改造、数据工具建设、离线及实时数仓建设，业务日增数据量约500T；负责增长平台期间，完成自助归因平台的建设，涉及

overfit同步小助手 2024-03-09 10:03:34 0 收藏

了解Spark运行架构与原理

了解Spark架构了解Spark作业运行流程了解Spark核心数据集RDD了解Spark核心原理

overfit同步小助手 2024-03-09 10:03:30 0 收藏

AI大语言模型在电商用户体验营销中的应用

1. 背景介绍1.1 电商行业的发展随着互联网技术的飞速发展，电子商务行业也取得了举世瞩目的成就。越来越多的人开始依赖在线购物平台来满足日常生活所需，电商平台也在不断地优化用户体验，提高购物效率。在这个过程中，人工智能技术的应用逐渐成为电商行业的核心竞争力之一。

overfit同步小助手 2024-03-09 10:01:29 0 收藏

每天十分钟学会Spark

小白学大数据Spark编程第1课

overfit同步小助手 2024-03-09 09:03:44 0 收藏

数据仓库的数据仓库：实现数据的一致性和完整性

1.背景介绍数据仓库是一种用于存储和管理大量历史数据的系统，它的主要目的是为了支持数据分析和决策。数据仓库通常包括一个数据仓库系统和一个数据仓库架构。数据仓库系统包括数据仓库的硬件、软件、网络和人员等组成部分。数据仓库架构则是一种用于构建数据仓库的框架，它包括数据仓库的数据源、数据存储、数据处理和数

overfit同步小助手 2024-03-09 08:03:22 0 收藏

大数据开发-Hadoop伪集群搭建

Hadoop环境搭建，虚拟机环境配置

overfit同步小助手 2024-03-09 04:03:46 0 收藏

Spark Bloom Filter Join

Bloom Filter Join，或者说Row-level Runtime Filtering（还额外有一条Semi-Join分支），是Spark 3.3对运行时过滤的一个最新补充之前运行时过滤主要有两个：动态分区裁剪DPP（开源实现）、动态文件裁剪DFP（Databricks实现），两者都能有效

overfit同步小助手 2024-03-09 04:03:40 0 收藏

【Hadoop】Yarn 任务管理指令

【代码】【Hadoop】Yarn 任务管理指令。

overfit同步小助手 2024-03-09 01:03:33 0 收藏

spark概述

MapReduce：MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组spark：Apache Spark

overfit同步小助手 2024-03-09 01:03:24 0 收藏

大数据离在线混部场景资源调度的演进与选型

我们发现Kubernetes 并不是一定就比Hadoop Yarn的调度能力要好，甚至在兼容性、数据本地存储、权限限制等方面也存在诸多不足，OK，回归到技术架构设计的根本问题就是：适合OR不适合？怎么来判断是否适合做云原生化建设？可以建议你从一下几个方面来综合考虑：集群规模是否足够大：集群规模足够大

overfit同步小助手 2024-03-08 23:04:09 0 收藏

Flink cdc debug调试动态变更表结构

flink cdc debug动态变更表结构

overfit同步小助手 2024-03-08 22:03:46 0 收藏

基于DPU和HADOS-RACE加速Spark 3.x

通过把Spark的计算卸载到DPU加速器上，在用户原有代码无需变更的情况下，端到端的性能可以得到2-5倍的提升，某些算子能达到43倍性能提升，同时CPU资源使用率从60%左右下降到5%左右，显著提升了原生SparkSQL的执行效率。DPU展现了强大的计算能力，对于端到端的分析，会有一些除去算子之外的

overfit同步小助手 2024-03-08 20:03:25 0 收藏

重生之从零开始学习大数据之Spark篇（一）

spark是一个用来实现快速，通用的集群计算平台，它基于Hadoop的MapReduce分布式框架优化并改进缺陷而形成的。在速度方面，Spark扩展了广泛使用的MapReduce计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。在处理大规模数据集事，速度是非常重要的。速度就以为这我们可以

overfit同步小助手 2024-03-08 18:03:49 0 收藏

“共码未来”——2022Google开发者大会纪行

由于疫情的影响，中断了2年的谷歌开发者大会再次召开。9月14日到15日，迎来了2022谷歌开发者大会，来自各地的谷歌粉丝们济济一堂，共同分享谷歌的最新成果。

overfit同步小助手 2024-03-08 18:03:43 0 收藏

【大数据】Flink 之部署篇

在所有其他模式下，应用程序的 main() 方法都在客户端执行。这一过程包括在本地下载应用程序的依赖项，执行 main() 以提取 Flink 运行时可以理解的应用程序表示（即 JobGraph），并将依赖项和 JobGraph 发送到集群。这就使客户端成为资源消耗大户，因为它可能需要大量网络带宽来

overfit同步小助手 2024-03-08 14:03:40 0 收藏

关于Spark基本问题及结构[月薪2w的人都在看]

结构化数据是指按照预定义的模型结构化或以预定义的方式组织的数据。根据谷歌表示，“结构化数据是一种标准化的格式，用于提供关于页面的信息并对页面内容进行分类。结构化查询语言(SQL)用于管理关系数据库中的结构化数据。这种语言最初被称为SEQUEL，是由IBM的Donald D. Chamberlin和R

overfit同步小助手 2024-03-08 14:03:37 0 收藏

Spark与ApacheCassandra集成与优化

1.背景介绍1. 背景介绍Apache Spark 是一个快速、通用的大数据处理框架，它可以处理批量数据和流式数据，支持多种编程语言，如 Scala、Python、R 等。Apache Cassandra 是一个分布式、高可用的 NoSQL 数据库，它可以存储大量数据，支持高并发访问。在大数据处理和

overfit同步小助手 2024-03-08 13:03:57 0 收藏

HBase整合Phoenix

1）官网地址：http://phoenix.apache.org/Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表，插入数据和查询HBase数据。优点：使用简单，直接能写sql。缺点：效率没有自己设计rowKey再使用API高，性能较差。

overfit同步小助手 2024-03-08 13:03:49 0 收藏