大数据 - overfit.cn

Flink面试题持续更新【2023-07-21】

需要注意的是，Spark 3.0引入了Structured Streaming，它在Spark Streaming的基础上进行了重构，以支持更高级的流处理功能和与批处理更紧密的一体化。需要注意的是，除了默认的消息语义之外，Flink和Spark Streaming都提供了灵活的配置选项和API，允许

overfit同步小助手 2024-03-27 11:03:39 0 收藏

基于Spark的气象数据处理与分析

本实验采用Python语言，从网页爬取气象数据，并使用大数据处理框架Spark对气象数据进行处理分析，并对分析结果进行可视化。

overfit同步小助手 2024-03-27 10:03:52 0 收藏

Spark RDD 基本操作

下面以例子的方式详细介绍Spark RDD的这两种操作涉及的函数。

overfit同步小助手 2024-03-27 10:03:36 0 收藏

速速上车学Spark+Scala部署安装步骤

一、Spark是什么？sparkSpark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台之一。Hadoop之父指出：大数据项目的MapReduce引擎的使用将下降，由取代。二、了解Spark的特点作为新一代轻量级大数据处理平台，SparkSpark是基于内存运行的而MapReduce是基

overfit同步小助手 2024-03-27 10:03:21 0 收藏

墨菲定律：大数据不会骗人（一）

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS 和 Mapreduce，HDFS 还包括 YARN。1.HDFS（hadoop分布式文件系统）是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故

overfit同步小助手 2024-03-27 09:03:43 0 收藏

Java实现自定义Hive认证账户密码

overfit同步小助手 2024-03-27 08:03:29 0 收藏

云上大数据

HDFS（Hadoop Distributed File System），它是一个文件系统HDFS的使用场景：适合一次写入，多次读出的场景。

overfit同步小助手 2024-03-27 07:03:47 0 收藏

Flink 性能优化总结（内存配置篇）

flink 性能优化内存配置

overfit同步小助手 2024-03-27 07:03:18 0 收藏

智能制造数字化工厂智慧供应链大数据解决方案（PPT）

企业在供应链计划、订单、采购、生产、仓储、物流等日常运作和人力、设备、物料、库存、质量、绩效管理中会应用到各种IT系统模块，并且随着信息化、自动化水平的持续提升尤其是物联网的日益广泛应用，运作流程中积累的各种数据成几何倍数递增，而这些数据的来源、种类、格式等也是多种多样，加上内外部系统的兼容对接和数

overfit同步小助手 2024-03-27 06:03:39 0 收藏

大数据毕设分享(含算法) 基于hadoop大数据教育可视化系统(源码+论文)

大数据可视化是关于数据视觉表现形式的科学技术研究[9]，将数据转换为图形或图像在屏幕上显示出来，并进行各种交互处理的理论、方法和技术。将数据直观地展现出来，以帮助人们理解数据，同时找出包含在海量数据中的规律或者信息，更多的为态势监控和综合决策服务。数据可视化是大数据生态链的最后一公里，也是用户最直接

overfit同步小助手 2024-03-27 05:03:36 0 收藏

RabbitMQ之三种队列之间的区别及如何选型

整体上来说，RabbitMQ的Stream队列，其实有很多地方借鉴了其他MQ产品的优点，在保证消息可靠性的基础上，着力提高队列的消息吞吐量以及消息转发性能。Stream队列的核心是以append-only只添加的日志来记录消息，整体来说，就是消息将以append-only的方式持久化到日志文件中，然

overfit同步小助手 2024-03-27 05:03:12 0 收藏

Spark内容分享(十八)：70个Spark面试题

Spark是一个快速、通用的大数据处理框架，它提供了丰富的核心组件和功能，用于处理和分析大规模数据集。Spark Core：Spark的核心组件，提供了分布式任务调度、内存管理和错误恢复等基本功能。它还定义了RDD（弹性分布式数据集）的概念，RDD是Spark中的基本数据结构，用于表示可并行处理的数

overfit同步小助手 2024-03-27 03:03:53 0 收藏

数据仓库相关概述

数据模型就是数据组织和存储方法，它强调从业务、数据存取和使用角度合理存储数据。只有将数据有序的组织和存储起来之后，数据才能得到高性能、低成本、高效率、高质量的使用。高性能：良好的数据模型能够帮助我们快速查询所需要的数据。低成本：良好的数据模型能减少重复计算，实现计算结果的复用，降低计算成本。高效率：

overfit同步小助手 2024-03-27 03:03:34 0 收藏

Hadoop05【命令操作】，微众银行java面试经验

一次偶然，从朋友那里得到一份“java高分面试指南”，里面涵盖了25个分类的面试题以及详细的解析：JavaOOP、Java集合/泛型、Java中的IO与NIO、Java反射、Java序列化、Java注解、多线程&并发、JVM、Mysql、Redis、Memcached、MongoDB、Spring、

overfit同步小助手 2024-03-27 02:03:37 0 收藏

【Flink SQL】Flink SQL 基础概念（五）：SQL 时区问题

首先说一下这个问题的背景：大家想一下离线 Hive 环境中，有遇到过时区相关的问题吗？至少博主目前没有碰到过，因为这个问题在底层的数据集成系统都已经给解决了，小伙伴萌拿到手的 ODS 层表都是已经按照所在地区的时区给格式化好的了。举个例子：小伙伴萌看到日期分区为2022-01-01的 Hive 表时

overfit同步小助手 2024-03-27 00:03:48 0 收藏

Hadoop完全分布式的搭建

今天我们来学习Hadoop完全分布式的搭建，我们要搭建hadoop完全分布式要掌握哪些东西呢？首先需要掌握的就是Hadoop的基础知识，了解Hadoop的生态系统，包括Hadoop的核心组件（如HDFS、MapReduce、YARN等）以及其他相关组件（如HBase、Hive、Zookeeper等）

overfit同步小助手 2024-03-26 23:03:25 0 收藏

Kafka总结文档

/主要见讲义第21-23页1、定义类实现 Partitioner 接口。2、重写 partition()方法。代码中实际完成的就是重写partition方法中的几个步骤:获取消息，将参数的value值变成tostring然后根据需求，去分析value，然后返回不同情况返回不同的partition值最

overfit同步小助手 2024-03-26 22:03:52 0 收藏

kafka3.4.0单机版安装配置教程（kraft模式舍弃ZK）

Kafka3.4.0单机版安装配置舍弃ZK使用Kraft模式

overfit同步小助手 2024-03-26 22:03:41 0 收藏

Docker配置jdk，mysql，redis，rabbitmq，nacos详细教程

docker中间安装jdk，mysql，redis，mq，nacos等

overfit同步小助手 2024-03-26 21:03:51 0 收藏

手写超级好用的rabbitmq-spring-boot-start启动器

手写超级好用的rabbitmq-spring-boot-start启动器由于springBoot官方提供的默认的rabbitMq自动装配不是那么好用，一个项目中只能配置使用一个rabbitMq的服务器，队列也需要编码的方式定义，这种繁杂且不易使用，用一次需要写一次硬编码，之前有一个想法是，能不能

overfit同步小助手 2024-03-26 20:03:40 0 收藏