Spark - overfit.cn

Spark应用案例：社交媒体分析

1.背景介绍社交媒体是现代互联网时代的一个重要平台，它为用户提供了一种快速、实时地分享信息、建立联系和交流的方式。随着社交媒体的普及和用户数量的快速增长，大量的数据被生成，这些数据包含了关于用户行为、兴趣和需求等宝贵的信息。因此，对于社交媒体数据的分析和挖掘成为了一项重要的任务，有助于企业和政府更好

overfit同步小助手 2024-01-30 23:03:24 0 收藏

[spark] 将dataframe中的数据插入到mysql

在生产环境中，可以考虑使用更高效的方法，例如通过其他手段检查数据库中的行数，或者在插入数据时记录插入的行数，并在Spark中进行验证。是 Spark 提供的一种更方便的方式，用于将 DataFrame 中的数据写入关系型数据库。这个方法封装了连接数据库、创建表以及插入数据的整个过程，提供了一种更简洁

overfit同步小助手 2024-01-30 11:03:39 0 收藏

Spark核心--RDD介绍

rdd 弹性分布式数据集是spark框架自己封装的数据类型，用来管理内存数据数据集：rdd数据的格式类似Python中 []。hive中的该结构[] 叫数组rdd提供算子(方法) 方便开发人员进行调用计算数据在pysaprk中本质是定义一个rdd类型用来管理和计算内存数据分布式：

overfit同步小助手 2024-01-30 11:03:13 0 收藏

Spark原理——逻辑执行图

overfit同步小助手 2024-01-30 07:03:24 0 收藏

关于hive on spark部署后insert报错Error code 30041问题

其中，Spark Executor内存是Spark配置中设置的executor总内存，包括堆内存和非堆内存。总内存 = Spark Executor内存 + Spark Executor的JVM堆内存 + Spark Executor的JVM非堆内存。1). 将/opt/module/spark/c

overfit同步小助手 2024-01-29 14:03:43 0 收藏

Spark与HBase的集成与数据访问

通过集成Spark与HBase，可以充分利用这两个强大的工具来处理和分析大规模数据。本文深入介绍了如何集成Spark与HBase，并提供了示例代码，以帮助大家更好地理解这一过程。同时，也提供了性能优化的建议，以确保在集成过程中获得良好的性能表现。

overfit同步小助手 2024-01-28 21:03:23 0 收藏

Spark SQL五大关联策略

选择连接策略的核心原则是尽量避免shuffle和sort的操作，因为这些操作性能开销很大，比较吃资源且耗时，所以首选的连接策略是不需要shuffle和sort的hash连接策略。◦Broadcast Hash Join（BHJ）：广播散列连接◦Shuffle Hash Join（SHJ）：洗牌散列连

overfit同步小助手 2024-01-28 18:03:47 0 收藏

2024.1.15 Spark 阶段原理,八股,面试题

spark是一款大数据统一分析引擎,底层数据结构是RDD1- 轮询分发策略:kafka老版本的策略,当生产数据的时候,只有value但是没有key的时候,采用轮询优点: 可以保证每个分区拿到的数据基本是一样，因为是一个一个的轮询的分发缺点: 如果采用异步发送方式，意味着一批数据发送到broker端，

overfit同步小助手 2024-01-27 14:03:44 0 收藏

基于spark的电影推荐系统，包括基于ALS、LFM的离线推荐、实时推荐

毕业设计——基于spark的电影推荐系统，包括基于ALS、LFM的离线推荐、实时推荐

overfit同步小助手 2024-01-27 03:03:32 0 收藏

hive location更新&hive元数据表详解

由于HDFS支持的文件格式很多，而建Hive表时候也可以指定各种文件格式，Hive在将HQL解析成MapReduce时候，需要知道去哪里，使用哪种格式去读写HDFS文件，而这些信息就保存在这几张表中。该表保存文件存储的基本信息，如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。主要

overfit同步小助手 2024-01-27 01:03:23 0 收藏

2023_Spark_实验三十一：开发Kafka偏移量的公共方法

基于scala，开发代码，将消费者组的offset信息存入mysql数据库

overfit同步小助手 2024-01-26 23:03:40 0 收藏

字节跳动 MapReduce - Spark 平滑迁移实践

近一年内字节跳动 Spark 作业数量经历了从 100 万到 150 万的暴涨，天级数据 Flink Batch 从 20 万涨到了 25 万，而 MapReduce 的用量则处于缓慢下降的状态，一年的时间差不多从 1.4 万降到了 1 万左右，基于以上的用量情况，MapReduce 作为我们使用的

overfit同步小助手 2024-01-26 23:03:27 0 收藏

Spark基础学习--基础介绍

Spark是可以处理大规模数据的统一分布式计算引擎。

overfit同步小助手 2024-01-26 02:03:37 0 收藏

SparkStreaming与Kafka整合

Receiver方式基于kafka的高级消费者API实现（高级优点：高级API写起来简单；不需要去自行去管理offset，系统通过zookeeper自行管理；不需要管理分区，副本等情况，系统自动管理；消费者断线会自动根据上一次记录在 zookeeper中的offset去接着获取数据；高级缺点：不能自

overfit同步小助手 2024-01-26 01:03:37 0 收藏

[PySpark学习]RDD的转换（Transformation）与动作算子（Action）

RDD（英文全称Resilient Distributed Dataset），即弹性分布式数据集是spark中引入的一个数据结构，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合。Resilient弹性：RDD的数据可以存储在内存或者磁盘当中，RDD的数据可以分区。

overfit同步小助手 2024-01-25 18:03:51 0 收藏

Spark SQL进阶

spark sql 深度介绍,spark_dataFrame与pandas_dataFrame互转,基于pandas的完成自定义UDF函数,UDAF函数

overfit同步小助手 2024-01-25 13:03:52 0 收藏

Spark内核解析-内存管理7(六)

Spark内核解析-内存管理

overfit同步小助手 2024-01-24 22:03:22 0 收藏

spark-udf函数

from pyspark.sql import SparkSessionfrom pyspark.sql.types import *ss = SparkSession.builder.getOrCreate()df_csv = ss.read.csv(‘hdfs://node1:8020/user

overfit同步小助手 2024-01-24 21:03:52 0 收藏

Spark二、Spark技术栈之Spark Core

spark核心：包括RDD、RDD算子、RDD的持久化/缓存、累加器和广播变量。

overfit同步小助手 2024-01-24 06:03:47 0 收藏

【pyspark从入门到放弃】DataFrame

Spark是大数据分析的主流框架，python库pyspark集成了Spark的大部分功能。

overfit同步小助手 2024-01-22 23:03:42 0 收藏