大数据 - overfit.cn

Spark使用map函数出现：Python worker exited unexpectedly (crashed)

本编使用的是python12.exe解释器，解决问题，将python.exe版本降低即可，我这里降低到了python10.exe；

overfit同步小助手 2024-07-24 00:03:49 0 收藏

seaTunnel web 部署踩坑记录

seaTunnel web启动异常org.apache.seatunnel.api.sink.SchemaSaveMode notfound

overfit同步小助手 2024-07-24 00:03:11 0 收藏

2024年数据和AI趋势报告

Google｜2024年数据和AI趋势报告

overfit同步小助手 2024-07-24 00:01:28 0 收藏

Spark 中如何去处理数据倾斜

在大数据环境中，使用分布式计算引擎(hive, spark, flink)在进行数据处理时, 在某个(stage)阶段中的某个task运行的数据量/时长的结果远超该stage内task的平均运行的数据量/时长的(N倍)时, 认定为数据倾斜, 其本质是数据分布不均衡, 常常伴随着内存溢出和报错。spa

overfit同步小助手 2024-07-23 23:04:25 0 收藏

Perl中的秘密档案：探索文件系统元数据

文件系统元数据是存储在文件系统中的关于文件和目录的数据。这些数据通常不包含在文件内容中，但对文件的管理和访问至关重要。文件类型：普通文件、目录、链接等。文件大小：文件内容的字节数。文件权限：文件的读、写、执行权限。文件所有者：文件的所有者和所属组。创建时间：文件的创建时间。修改时间：文件内容最后一次

overfit同步小助手 2024-07-23 23:03:38 0 收藏

Perl并发编程秘籍：线程间通信的艺术

在Perl中，线程是通过threads模块实现的。每个线程都有自己的执行环境，但它们可以共享某些数据结构。线程间的通信主要涉及到共享数据的访问和同步。

overfit同步小助手 2024-07-23 23:03:18 0 收藏

实时数仓-电商数据仓库系统

作为集合元素，查询结果的每一行对应一个实体类对象，将所有对象封装到 List 集合中，返回给方法调用者。

overfit同步小助手 2024-07-23 22:03:53 0 收藏

PySpark（一）Spark原理介绍、PySpark初体验及原理

Apache Spark是用于处理的统一（unified）分析引擎，其特点就是对任意类型的数据进行自定义计算。

overfit同步小助手 2024-07-23 17:03:47 0 收藏

第五届计算机、大数据与人工智能国际会议（ICCBD+AI 2024）

第五届计算机、大数据与人工智能国际会议将于2024年11月1日至3日在江西景德镇举行，由景德镇陶瓷大学主办，多家高校协办。会议聚焦前沿技术，提供多种参与方式，录用论文将提交EI检索。

overfit同步小助手 2024-07-23 10:01:45 0 收藏

Flink架构底层原理详解：案例解析（43天）

本文主要详解了Flink架构，通过案例详解Flink流式开发，本地提交，阿里云平台提交。

overfit同步小助手 2024-07-23 09:03:28 0 收藏

Spark SQL----Parquet文件

Parquet是一种列式（columnar）格式，许多其他数据处理系统都支持它。Spark SQL支持读取和写入Parquet文件，该文件自动保留原始数据的模式。读取Parquet文件时，出于兼容性原因，所有列都会自动转换为可为null。

overfit同步小助手 2024-07-23 08:03:32 0 收藏

【Pyspark-驯化】spark中高效保存数据到hive表中：stored as PARQUET

在PySpark中，数据可以以不同的文件格式存储，其中最常见的是TEXTFILE和PARQUET。这两种格式在存储效率、查询性能以及使用场景上有着显著的差异。STORED AS TEXTFILE：这是一种简单的存储方式，将数据以文本形式存储，通常用于非结构化数据。它不需要特定的序列化机制，易于阅读但

overfit同步小助手 2024-07-23 06:03:58 0 收藏

如何学习Flink：糙快猛的大数据之路（图文并茂）

在数据的海洋中，Flink 是你的航船。熟悉它，运用它，你将能够驾驭任何数据的风浪。祝你在 Flink 的学习之路上一帆风顺，早日成为独当一面的大数据工程师！加油！

overfit同步小助手 2024-07-23 06:03:53 0 收藏

Spark SQL----GROUP BY子句

GROUP BY子句用于根据一组指定的分组表达式对行进行分组，并根据一个或多个指定的聚合函数计算行组上的聚合。Spark还支持高级聚合，通过GROUPING SETS、CUBE、ROLLUP子句对同一输入记录集进行多个聚合。分组表达式和高级聚合可以混合在GROUP BY子句中，也可以嵌套在GROUP

overfit同步小助手 2024-07-23 03:03:41 0 收藏

大数据之Hadoop部署

搭建一个Hadoop集群涉及到多个步骤，包括服务器规划，服务器环境准备，配置SSH无密码登录，安装Java，安装Hadoop，配置Hadoop，以及格式化和启动Hadoop集群。文章介绍了在三台CentOS系统服务器上搭建Hadoop集群的必要步骤和详细的描述，基于该方法可以把hadoop部署到任

overfit同步小助手 2024-07-23 02:03:27 0 收藏

Spark--Spark编程基础和编程进阶知识总结(第三章和第四章)

在RDD的执行过程中，真正的计算发生在行动操作中，在前面的所有转换，spark只是记录下转换操作应用的一些基础数据集和RDD生成轨迹，不会触发计算。一样的操作，为每一条输入返回一个迭代器（可迭代的数据类型），然后将所得到的不同级别的迭代器中的元素全部当成同级别的元素，返回一个元素级别全部相同的。RD

overfit同步小助手 2024-07-23 00:03:45 0 收藏

【ACM出版】2024人工智能与自然语言处理国际学术会议（AINLP 2024，7月19-21）

【ACM出版】2024人工智能与自然语言处理国际学术会议（AINLP 2024）2024 International Conference on Artificial Intelligence and Natural Language Processing

overfit同步小助手 2024-07-22 22:01:34 0 收藏

【大数据专题】Spark题库

试题回答参考思路：Spark是大数据的调度，监控和分配引擎。它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算，但对于在磁盘上运行的复杂应用程序，系统也比MapReduce更有效Spark 是一个通用的内存计算引擎。您

overfit同步小助手 2024-07-22 21:03:53 0 收藏

【Hbase】Hbase TableInputFormat、TableOutputFormat

TableInputFormat是Apache HBase中的一个重要的类，它允许MapReduce作业直接从HBase表中读取数据作为其输入。这使得HBase可以作为一个数据源，供MapReduce作业处理其存储的大规模数据集，而无需将数据导出到HDFS或其他文件系统。这样不仅提高了数据处理的效率

overfit同步小助手 2024-07-22 16:03:40 0 收藏

数据资产管理的未来趋势：洞察技术前沿，探讨数据资产管理在云计算、大数据、区块链等新技术下的发展趋势

企业需要紧跟技术前沿，积极探索和实践新技术在数据资产管理中的应用，以实现数据资产的最大化利用和价值创造。“方案365”全新整理数据资产、乡村振兴规划设计、智慧文旅、智慧园区、数字乡村-智慧农业、智慧城市、数据治理、智慧应急、数字孪生、乡村振兴、智慧乡村、元宇宙、数据中台、智慧矿山、城市生命线、智慧水

overfit同步小助手 2024-07-22 16:03:34 0 收藏