【Hadoop精讲】HDFS详解
Hadoop精讲、HDFS详解、副本放置策略、元数据持久化
【头歌实训】Spark 完全分布式的安装和部署
把 evassh 服务器的 /usr/local 目录下的 spark 安装包通过 SCP 命令上传到 master 虚拟服务器的 /usr/local 目录下。Hadoop 集群在启动脚本时,会去启动各个节点,此过程是通过 SSH 去连接的,为了避免启动过程输入密码,需要配置免密登录。把 mast
Flink 输出至 Elasticsearch
Flink 输出至 Elasticsearch。
【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口?!
【hadoop】解决浏览器不能访问Hadoop的50070、8088等端口?!
SqlServer数据库定时清理数据,仅保留指定时间段内的数据——高效处理大数据
在步骤1中,我们创建了一个名为"CleanExpiredData"的定时任务,并添加了一个步骤。假设我们有一个名为"Data"的表,其中包含时间戳字段"Timestamp",我们希望只保留最近30天内的数据。本文介绍了如何利用SqlServer的定时任务和T-SQL语句来实现定期清理数据库中过期数据
基于 Flink 的典型 ETL 场景实现方案
数仓架构演变,三种架构:lambda架构、kappa架构、实时olap架构。维表join,双流Join。
【星环云课堂大数据实验】InceptorSQL使用方法
1. 批处理;2.统计分析;3. 图计算和图检索;4.交互式统计分析外部表(或简称为外表)和托管表(内表)。TEXT表、ORC表、CSV表和Holodesk表。分区表和非分区表。分桶表和非分桶表。托管表(内表)CREATE TABLE 默认创建托管表。Inceptor对托管表有所有权——用 DROP
使用git-repo管理多个git仓库
每个采用 repo 管理的复杂多仓库项目都需要一个对应的 manifest 仓库,如 AOSP 的 manifest ,此仓库用来存储所有子仓库的配置信息,repo 也是读取此仓库的配置文件来进行管理操作。里面的配置就是 xml 定义的结构,例如aosp default repository一般是d
万字解决Flink|Spark|Hive 数据倾斜
不管再出现分布式计算框架出现数据倾斜问题解决思路如下:很多数据倾斜的问题,都可以用和平台无关的方式解决,比如更好的数据预处理,异常值的过滤等。因此,解决数据倾斜的重点在于对数据设计和业务的理解,这两个搞清楚了,数据倾斜就解决了大部分了。关注这几个方面:数据预处理。解决热点数据:分而治之(第一次打散计
《数据传输安全白皮书》发布 国研政情谋定论道经济信息研究
《数据传输安全白皮书》发布 国研政情谋定论道经济信息研究
大数据前馈神经网络解密:深入理解人工智能的基石
前馈神经网络(Feedforward Neural Network, FNN)是神经网络中最基本和经典的一种结构,它在许多实际应用场景中有着广泛的使用。在本节中,我们将深入探讨FNN的基本概念、工作原理、应用场景以及优缺点。前馈神经网络是一种人工神经网络,其结构由多个层次的节点组成,并按特定的方向传
山东大学软件学院2022-2023数据科学导论知识点整理【软工大数据课组】
山东大学软件学院2022-2023数据科学导论知识点整理【软工大数据课组】
大数据Doris(三十三):Doris高级设置
但如果小表的数据量也很大的时候, 就会造成内存溢出, 此时需要通过shuffle join的方式进行, 也被称为partition join. 即将大表小表都按照join的key进行hash, 然后进行分布式join。doris在join操作的时候时候, 默认使用broadcast的方式进行join
大数据实验 实验六:Spark初级编程实践
大数据实验 实验六:Spark初级编程实践
【大数据】Doris 的集群规划和环境准备
Doris 作为一款开源的 MPP 架构 OLAP 数据库,能够运行在绝大多数主流的商用服务器上。为了能够充分运用 MPP 架构的并发优势,以及 Doris 的高可用特性,我们建议 Doris 的部署遵循以下需求。
大数据分析——某电商平台药品销售数据分析
大数据分析——某电商平台药品销售数据分析
【Spark编程基础】第7章 Structured Streaming
Structured Streaming的关键思想是将实时数据流视为一张正在不断添加数据的表可以把流计算等同于在一个静态表上的批处理查询,Spark会在不断添加数据的无界输入表上运行计算,并进行增量查询在无界表上对输入的查询将生成结果表,系统每隔一定的周期会触发对无界表的计算并更新结果表。
亚马逊云科技生成式AI 深度测评Amazon Bedrock
在北京时间2023年11月30日05:00-06:00,BratinSaha博士带我们了解了最新的亚马逊云科技服务和基础架构创新和亚马逊云科技的一些企业客户已经使用生成式AI构建了哪些业务。由于亚马逊云科技提供一百多种产品的试用,所以在本场直播结束后我迫不及待的开始动手实验起来,本文对亚马逊云科技生
【大数据-Hadoop】从入门到源码编译-概念篇
2011年成立,吸纳Hadoop的雅虎程序员贡献了80%的Hadoop代码,文档较好,Hortonworks Data Platform(HDP)还包括了Ambari(开源的安装和管理系统)。存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)、以及每个文件的块列表和块所
大数据课设-2020年美国新冠肺炎疫情数据分析
大数据课设-2020年美国新冠肺炎疫情数据分析