Git常用操作命令
git的常用命令,主要的就是六个,其他的忘记了回来查就行。
Hadoop 完全分布式部署
Hadoop 完全分布式部署 ,环境:CentOS 7 、jdk1.8 、hadoop 3.3.4
2024年第二期丨全国高校大数据与人工智能师资研修班邀请函
2024年第二期丨全国高校大数据与人工智能师资研修班
Flink面试题持续更新【2023-07-21】
需要注意的是,Spark 3.0引入了Structured Streaming,它在Spark Streaming的基础上进行了重构,以支持更高级的流处理功能和与批处理更紧密的一体化。需要注意的是,除了默认的消息语义之外,Flink和Spark Streaming都提供了灵活的配置选项和API,允许
基于Spark的气象数据处理与分析
本实验采用Python语言,从网页爬取气象数据,并使用大数据处理框架Spark对气象数据进行处理分析,并对分析结果进行可视化。
Spark RDD 基本操作
下面以例子的方式详细介绍Spark RDD的这两种操作涉及的函数。
墨菲定律:大数据不会骗人(一)
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS 和 Mapreduce,HDFS 还包括 YARN。1.HDFS(hadoop分布式文件系统)是hadoop体系中数据存储管理的基础。他是一个高度容错的系统,能检测和应对硬件故
云上大数据
HDFS(Hadoop Distributed File System),它是一个文件系统HDFS的使用场景:适合一次写入,多次读出的场景。
Flink 性能优化总结(内存配置篇)
flink 性能优化 内存配置
智能制造数字化工厂智慧供应链大数据解决方案(PPT)
企业在供应链计划、订单、采购、生产、仓储、物流等日常运作和人力、设备、物料、库存、质量、绩效管理中会应用到各种IT系统模块,并且随着信息化、自动化水平的持续提升尤其是物联网的日益广泛应用,运作流程中积累的各种数据成几何倍数递增,而这些数据的来源、种类、格式等也是多种多样,加上内外部系统的兼容对接和数
Spark内容分享(十八):70个Spark面试题
Spark是一个快速、通用的大数据处理框架,它提供了丰富的核心组件和功能,用于处理和分析大规模数据集。Spark Core:Spark的核心组件,提供了分布式任务调度、内存管理和错误恢复等基本功能。它还定义了RDD(弹性分布式数据集)的概念,RDD是Spark中的基本数据结构,用于表示可并行处理的数
数据仓库相关概述
数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。只有将数据有序的组织和存储起来之后,数据才能得到高性能、低成本、高效率、高质量的使用。高性能:良好的数据模型能够帮助我们快速查询所需要的数据。低成本:良好的数据模型能减少重复计算,实现计算结果的复用,降低计算成本。高效率:
【Flink SQL】Flink SQL 基础概念(五):SQL 时区问题
首先说一下这个问题的背景:大家想一下离线 Hive 环境中,有遇到过时区相关的问题吗?至少博主目前没有碰到过,因为这个问题在底层的数据集成系统都已经给解决了,小伙伴萌拿到手的 ODS 层表都是已经按照所在地区的时区给格式化好的了。举个例子:小伙伴萌看到日期分区为2022-01-01的 Hive 表时
Hadoop完全分布式的搭建
今天我们来学习Hadoop完全分布式的搭建,我们要搭建hadoop完全分布式要掌握哪些东西呢?首先需要掌握的就是Hadoop的基础知识,了解Hadoop的生态系统,包括Hadoop的核心组件(如HDFS、MapReduce、YARN等)以及其他相关组件(如HBase、Hive、Zookeeper等)
Linux生产者消费者模型之阻塞队列
生产者消费者模型是高效的。其高效体现在一个线程拿出来任务可能正在做处理,它在做处理的同时,其他线程可以继续从队列中拿任务,继续处理,所以其高效是我们可以让多个线程并发的同时处理多个任务!生产者线程也可以不断地并发地派发任务。
数据仓库概述
数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。
Flink Flink数据写入Kafka
flink官方集成了通用的 Kafka 连接器,使用时需要根据生产环境的版本引入相应的依赖。通过socket模拟数据写入Flink之后,Flink将数据写入Kafka。
人工智能与大数据技术导论-13011知识点记录
需要掌握:AI概念和历史发展;AI技术的成熟度;AI与云计算和大数据的关系。人工智能是一门利用计算机模拟人类智能行为科学的统称,它涵盖了训练计算机使其能够完成自主学习、判断、决策等人类行为的范畴。AI就是能够让机器做一些只有”人“才能做得好的事情。1.2、AI历史发展经历了三个阶段:(1)1956-
带你深入了解spark(重生之最牛逼最详细版)
MapReduce和Spark都是用于大数据处理的框架,但们在设计和功能上有一些区别。MapReduce是一种编程模型,用于处理大规模数据集的并行计算。它由Google提出,并被Apache Hadoop项目采纳。MapReduce将计算任务分为两个阶段:Map阶段和Reduce阶段。在Map阶段,
【Flink入门修炼】2-1 Flink 四大基石
前一章我们对 Flink 进行了总体的介绍。对 Flink 是什么、能做什么、入门 demo、架构等进行了讲解。本章我们将学习 Flink 重点概念、核心特性等。本篇对 Flink 四大基石进行概括介绍,是 Flink 中非常关键的四个内容。