Spark - overfit.cn

数据仓库面试题集&离线&实时

1、2、Flink提交方式，使用pre-job还是yarn-session模式，好处？

overfit同步小助手 2024-11-25 15:03:41 0 收藏

pyspark入门基础详细讲解

学习目标：掌握pyspark库的安装，掌握pyspark执行环境入口对象的构建，理解pyspark的编程模型。建议使用国内代理镜像网站下载更快。

overfit同步小助手 2024-11-25 14:03:50 0 收藏

基于Spark的电信用户行为分析系统的设计与实现(源码+文档+部署讲解等)

基于Spark的电信用户行为分析系统的设计与实现是为了应对电信行业海量数据处理和深入用户洞察的需求。该系统在设计上充分考虑了电信数据的复杂性和多样性。采用分布式架构，能够高效地采集、存储和处理来自不同渠道的电信用户数据，包括通话记录、短信记录、上网流量数据等。通过数据清洗和预处理模块，对原始数据进行

overfit同步小助手 2024-11-25 09:03:36 0 收藏

Spark之RDD,常用的分析算子大全分组聚合,排序,重分区,连接合并等算子

overfit同步小助手 2024-11-25 00:03:16 0 收藏

Spark中的DataFrame和DataSet有什么区别？

DataFrame：适用于需要快速编写和维护的数据处理任务，适合初学者或对类型安全要求不高的场景。DataSet：适用于需要类型安全和复杂数据处理任务，适合需要严格类型检查的场景。在实际应用中，可以根据具体需求选择使用 DataFrame 或 DataSet。大多数情况下，DataFrame 和 D

overfit同步小助手 2024-11-23 22:03:56 0 收藏

大数据Spark Streaming、Spark、MapReduce、Impala 和 Hive

大数据的SparkStreaming Spark，mapreduce等概念

overfit同步小助手 2024-11-23 13:04:42 0 收藏

基于Spark的信用卡逾期数据分析与可视化项目【大数据期末作业】

了解逾期情况，尤其是分析导致逾期的因素，可以帮助金融机构更好地了解客户行为，改善信贷政策，降低不良贷款率，提高金融服务的质量。## 房产无抵押共有56188人，逾期4672人，没逾期51516人。# 房产抵押共有93812人，逾期5354人，不逾期88458人。# 两个记录都有的人有4393人，逾期

overfit同步小助手 2024-11-23 08:03:43 0 收藏

Spark快速入门与实战案例解析

在当今的大数据时代，数据处理速度与效率成为了竞争的关键。作为一款开源的分布式计算框架，Apache Spark 以其高效的内存计算和简洁的编程模型，迅速成为数据工程师和科学家们的必备工具。无论是批量数据处理，还是实时数据流分析，Spark 都可以游刃有余地胜任。本篇文章将围绕【Spark 快速入门】

overfit同步小助手 2024-11-22 17:03:47 0 收藏

使用Python实现对接Hadoop集群（通过Hive）并提供API接口

安装必要的库首先，确保已经安装了以下库：代码实现。

overfit同步小助手 2024-11-22 16:03:29 0 收藏

【大数据】基于Spark WebUI定位数据倾斜与Spark调优

【大数据】基于Spark WebUI定位数据倾斜与Spark调优文章脉络数据倾斜现象数据倾斜出现原因数据倾斜问题排查与定位初步认知问题定位查看key的数据分布情况解决数据倾斜(Spark调优) 基本思路 (首选尝试)解决方案一：提高Shuffle操作的并行度 (其次

overfit同步小助手 2024-11-22 04:03:49 0 收藏

基于spark的电影推荐系统

主营内容：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。文末获取源码。

overfit同步小助手 2024-11-21 19:03:42 0 收藏

分布式(Hadoop\Spark)

Hadoop 是一个开源的分布式计算框架，主要用于处理大规模数据集。它提供了一个可靠、可扩展且高效的存储和处理平台，特别适用于需要存储和处理海量数据的应用。Hadoop 采用分布式存储和计算模型，能够在成千上万的节点上处理数据，支持大数据的存储、处理和分析。HDFS（Hadoop Distribut

overfit同步小助手 2024-11-21 03:03:42 0 收藏

基于java+springboot的spark的汽车行业大数据分析系统

基于 Java+Spring Boot 和 Spark 的汽车行业大数据分析系统是一款为汽车行业提供深度洞察的智能分析平台。系统可从多渠道收集数据，包括汽车销售数据（车型、销量、价格、地域分布等）、售后服务数据（维修记录、故障类型、配件使用等）、用户调研数据（满意度、偏好等）以及网络舆情数据（消费者

overfit同步小助手 2024-11-20 17:03:31 0 收藏

推荐几种主流数据仓库：深度剖析与对比

虽然Hadoop本身不是数据仓库，但它提供了数据仓库的基础架构，并与Hive、HBase等工具配合使用，构建出完整的数据仓库解决方案。Apache Hive是一个基于Hadoop的开源数据仓库系统，它将数据存储在HDFS（Hadoop Distributed File System）中，并提供了类似

overfit同步小助手 2024-11-20 12:03:50 0 收藏

大数据之数据仓库的分层：ODS/DWD/DWS/ADS

ETL层（Extract-Transform-Load）：数据清洗层，存原始数据；ODS层（Operational Data Store）：操作数据源层；CDM层（Common Dimensional Model）：公共维度模型层，主要包括DWD层（Data Warehouse Detail 数据明

overfit同步小助手 2024-11-20 09:03:25 0 收藏

EMR Spark-SQL性能极致优化揭秘 Native Codegen Framework

本文介绍了EMR团队在Spark Native Codegen方向的探索实践，限于篇幅若干技术点和优化没有展开，后续可另开文详解，例如:1.极致Native算子优化2.数据转换详解3.Weld Dict优化大家感兴趣的任何内容欢迎沟通: )EMR Spark-SQL性能极致优化揭秘 Native C

overfit同步小助手 2024-11-19 15:03:44 0 收藏

spark-on-k8s 介绍

spark客户端提交任务到apiserver，创建driverdriver根据配置，创建指定数量的executordriver调度task到指定的executor计算数据域和计算域都在executor任务结束之后，driver销毁所有executor，同时自己也退出，也可以根据配置选择保留exe

overfit同步小助手 2024-11-19 06:03:52 0 收藏

大数据-223 离线数仓 - 数仓概念篇业务分析数据埋点指标体系维度拆解

类似某东、某宝、某猫，电商网站采用商家入驻的方式，商家入驻平台提交申请。网站前台，网站首页、商家首页、商品详情页、搜索页、会员中心、订单与支付相关、秒杀频道运营商后台，运营人员的管理平台，主要功能包括：商家审核、品牌管理、规格管理、模板管理、商品分类管理、商品审核、广告类型管理、广告管理、订单查询、

overfit同步小助手 2024-11-18 22:03:28 0 收藏

Spark 程序开发与提交：本地与集群模式全解析

本文将深入探讨 Spark 程序在本地开发并远程提交到集群测试的过程，以及使用 spark - submit 脚本在集群模式下提交程序的相关知识，包括参数配置、运行模式等内容。

overfit同步小助手 2024-11-18 11:03:57 0 收藏

python基于Spark的温布尔登特色赛赛事数据分析预测及算法

Django-Admin来自django.contrib也就是Django的标准库，默认被配置好，只需要激活启用即可，它的优势在于可以快速对数据库的各个表进行增删改查，一行代码即可管理一张数据库表，相比于手动后台1个模型一般需要4个urls，4个视图函数和4个模板，可以说Django完成了一个程序编

overfit同步小助手 2024-11-18 11:03:29 0 收藏