大数据 - overfit.cn

Spark SQL----Parquet文件

Parquet是一种列式（columnar）格式，许多其他数据处理系统都支持它。Spark SQL支持读取和写入Parquet文件，该文件自动保留原始数据的模式。读取Parquet文件时，出于兼容性原因，所有列都会自动转换为可为null。

overfit同步小助手 2024-07-23 08:03:32 0 收藏

【Pyspark-驯化】spark中高效保存数据到hive表中：stored as PARQUET

在PySpark中，数据可以以不同的文件格式存储，其中最常见的是TEXTFILE和PARQUET。这两种格式在存储效率、查询性能以及使用场景上有着显著的差异。STORED AS TEXTFILE：这是一种简单的存储方式，将数据以文本形式存储，通常用于非结构化数据。它不需要特定的序列化机制，易于阅读但

overfit同步小助手 2024-07-23 06:03:58 0 收藏

如何学习Flink：糙快猛的大数据之路（图文并茂）

在数据的海洋中，Flink 是你的航船。熟悉它，运用它，你将能够驾驭任何数据的风浪。祝你在 Flink 的学习之路上一帆风顺，早日成为独当一面的大数据工程师！加油！

overfit同步小助手 2024-07-23 06:03:53 0 收藏

RabbitMQ 修改默认密码

RabbitMQ默认账号名是guest，密码也是guest。这意味着访问者无需任何验证就可以登录并访问RabbitMQ。这是一种非常危险和不安全的配置，因为任何人都可以登录并访问您的RabbitMQ服务器并读取或发送数据。因此，务必在安装RabbitMQ后更改默认账号名和密码。不要使用弱密码，并且强

overfit同步小助手 2024-07-23 06:03:40 0 收藏

基于Spark的国漫推荐系统的设计与实现：爬虫、数据分析与可视化

在国漫产业中，如何从海量的国漫作品中提取有价值的信息，为用户推荐符合其喜好的作品，成为了亟待解决的问题。因此，本文提出了基于Spark的国漫推荐系统，利用Spark强大的数据处理能力，结合大数据爬虫、数据分析与可视化技术，实现国漫的精准推荐。因此，本文旨在探讨基于Spark的国漫推荐系统的设计与实现

overfit同步小助手 2024-07-23 05:03:49 0 收藏

【MQ 系列】SprigBoot + RabbitMq 消息发送基本使用姿势

接下来我们希望通过自定义一个 json 序列化方式的 MessageConverter 来解决上面的问题一个比较简单的实现（利用 FastJson 来实现序列化/反序列化）@Override@Override重新定义一个，并设置它的消息转换器为自定义的@Bean然后再次测试一下@Service@Au

overfit同步小助手 2024-07-23 05:03:39 0 收藏

数据仓库中，增量表和全量表的区别是什么，举个简单的例子

增量表主要存储的是数据源中新增的数据，它不包括修改和删除的数据。这种表类型在数据仓库中常用于实时数据分析和数据挖掘任务，因为它只处理新增的数据，从而大大减少了数据处理的时间和资源消耗。但是，由于全量表的数据量较大，存储空间占用较多，这可能会导致数据导入和查询的效率较低。以同样的电商平台为例，如果需要

overfit同步小助手 2024-07-23 04:03:41 0 收藏

Spark SQL----GROUP BY子句

GROUP BY子句用于根据一组指定的分组表达式对行进行分组，并根据一个或多个指定的聚合函数计算行组上的聚合。Spark还支持高级聚合，通过GROUPING SETS、CUBE、ROLLUP子句对同一输入记录集进行多个聚合。分组表达式和高级聚合可以混合在GROUP BY子句中，也可以嵌套在GROUP

overfit同步小助手 2024-07-23 03:03:41 0 收藏

Spark SQL原理与代码实例讲解

Spark SQL原理与代码实例讲解1. 背景介绍1.1 问题的由来随着大数据时代的发展，数据量呈指数级增长，对数据处理的需求也越来越高。传统的关系型数据库虽然在处理结构化数据时表现出色，但在大规模数据集上的处理速度和灵活性方面有所不

overfit同步小助手 2024-07-23 02:03:30 0 收藏

大数据之Hadoop部署

搭建一个Hadoop集群涉及到多个步骤，包括服务器规划，服务器环境准备，配置SSH无密码登录，安装Java，安装Hadoop，配置Hadoop，以及格式化和启动Hadoop集群。文章介绍了在三台CentOS系统服务器上搭建Hadoop集群的必要步骤和详细的描述，基于该方法可以把hadoop部署到任

overfit同步小助手 2024-07-23 02:03:27 0 收藏

Kafka简单入门

介绍什么是事件流式处理以及kafka中的概念、术语和能力

overfit同步小助手 2024-07-23 01:03:15 0 收藏

Spark--Spark编程基础和编程进阶知识总结(第三章和第四章)

在RDD的执行过程中，真正的计算发生在行动操作中，在前面的所有转换，spark只是记录下转换操作应用的一些基础数据集和RDD生成轨迹，不会触发计算。一样的操作，为每一条输入返回一个迭代器（可迭代的数据类型），然后将所得到的不同级别的迭代器中的元素全部当成同级别的元素，返回一个元素级别全部相同的。RD

overfit同步小助手 2024-07-23 00:03:45 0 收藏

【大数据专题】Spark题库

试题回答参考思路：Spark是大数据的调度，监控和分配引擎。它是一个快速通用的集群计算平台.Spark扩展了流行的MapReduce模型.Spark提供的主要功能之一就是能够在内存中运行计算，但对于在磁盘上运行的复杂应用程序，系统也比MapReduce更有效Spark 是一个通用的内存计算引擎。您

overfit同步小助手 2024-07-22 21:03:53 0 收藏

3、RabbitMQ_工作模式

工作队列与简单模式相比，一个生产者、多个消费者（排它关系），多个消费端共同消费同一个队列中的消息使用场景：对于消息生产速度大于消费速度场景，可以增加消费者减少单个消费者压力在订阅模型中，多了一个Exchange 角色：Exchange：交换机（X）。接收生产者发送的消息;处理投递消息，例如递交给某个

overfit同步小助手 2024-07-22 19:03:24 0 收藏

【Hbase】Hbase TableInputFormat、TableOutputFormat

TableInputFormat是Apache HBase中的一个重要的类，它允许MapReduce作业直接从HBase表中读取数据作为其输入。这使得HBase可以作为一个数据源，供MapReduce作业处理其存储的大规模数据集，而无需将数据导出到HDFS或其他文件系统。这样不仅提高了数据处理的效率

overfit同步小助手 2024-07-22 16:03:40 0 收藏

数据资产管理的未来趋势：洞察技术前沿，探讨数据资产管理在云计算、大数据、区块链等新技术下的发展趋势

企业需要紧跟技术前沿，积极探索和实践新技术在数据资产管理中的应用，以实现数据资产的最大化利用和价值创造。“方案365”全新整理数据资产、乡村振兴规划设计、智慧文旅、智慧园区、数字乡村-智慧农业、智慧城市、数据治理、智慧应急、数字孪生、乡村振兴、智慧乡村、元宇宙、数据中台、智慧矿山、城市生命线、智慧水

overfit同步小助手 2024-07-22 16:03:34 0 收藏

22 - Hadoop HA 高可用集群搭建、手动模式、自动模式以及HA模式集群

（1）所谓 HA（High Availablity），即高可用（7*24 小时不中断服务）。（2）实现高可用最关键的策略是消除单点故障。HA 严格来说应该分成各个组件的 HA 机制：HDFS 的 HA 和 YARN 的 HA。（3）NameNode 主要在以下两个方面影响 HDFS 集群HDFS H

overfit同步小助手 2024-07-22 16:03:31 0 收藏

关于HDFS 和HBase

总结来说，Apache HBase 就像是一个超级智能的图书管理系统，它建在巨大的图书馆（HDFS）之上，能够让你快速找到需要的信息，不管数据量有多大，都可以通过添加更多的电脑来轻松应对。想象一下，你有一个巨大的图书馆，这个图书馆就像 HDFS，它的架子上堆满了各种各样的书籍，每本书都非常厚，而且有

overfit同步小助手 2024-07-22 15:03:52 0 收藏

大数据技术——HBase

HBase是一个分布式的、面向列的开源数据库，主要用于存储海量的非结构化数据，其设计思想来源于Google的BigTable论文。作为一个高可靠性、高性能的数据库，HBase利用Hadoop HDFS作为其文件存储系统，并借助ZooKeeper实现集群管理和协调服务。

overfit同步小助手 2024-07-22 14:03:36 0 收藏

spark的相关知识点

里面有SparkCore、SparkSql、SparkStreaming、SparkMilLb的知识点总结

overfit同步小助手 2024-07-22 12:03:19 0 收藏