大数据-玩转数据-Flume
Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。Flume基于流式架构,容错性强,也很灵活简单。Flume、Kafka用来实时进行数据收集,Spark、Flink用来实时处理数据,impala用来实时查询。
【大数据】Hadoop_MapReduce➕实操(附详细代码)
MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一是分布式计算框,就是mapreduce,二者缺一不可,也就是说,可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程sftp命令:Windows下登录Hadoop102l
使用两台Centos7系统搭建Hadoop-3.1.4完全分布式集群
Hadoop是Apache旗下的一个用Java语言实现开源软件框架,是一个存储和计算大规模数据的软件平台。Hadoop是Apache Lucene创始人 Doug Cutting 创建的,最早起源一个Nutch项目。2003年Google发表了一篇GFS论文,为大规模数据存储提供了可行的解决方案。2
从0到1构建智能分布式大数据爬虫系统
从0到1搭建分布式爬虫平台、深度汇总各功能模块应用
【flink】Task 故障恢复详解以及各重启策略适用场景说明
【flink】Task 故障恢复详解以及各重启策略适用场景说明
版本控制工具 - git的安装与使用
git的下载与安装、idea中git插件配置、gitlab项目拉取
【数据开发】大数据平台架构,Hive / THive介绍
什么是Hive?Hive是一个基于Hadoop的数据仓库工具。它提供了一个类似于SQL的查询语言,称为HiveQL,用于查询和分析大规模数据集。Hive将结构化数据映射到Hadoop的分布式文件系统和Hadoop的分布式处理引擎上,允许用户使用类似于SQL的语言查询数据,并将数据转换为其他格式,例如
hadoop完全分布式集群搭建(超详细)-大数据集群搭建
本次搭建完全分布式集群用到的环境有:jdk1.8.0hadoop-2.7.7本次搭建集群所需环境也给大家准备了,下载链接地址:https://share.weiyun.com/dk7WgaVk密码:553ubk本次完全分布式集群搭建需要提前建立好三台虚拟机,我分别把它们的主机名命名为:master,
HIVE数据抽样
hive中分桶其实就是根据某一个字段Hash取模,放入指定数据的桶中,比如将表table按照ID分成100个桶,其算法是hash(id) % 100,这样,hash(id) % 100 = 0的数据被放到第一个桶中,hash(id) % 100 = 1的记录被放到第二个桶中。sort by 提供了单
Hadoop的安装和使用,Windows使用shell命令简单操作HDFS
Hadoop的安装和使用,Windows使用shell命令简单操作HDFS,Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。 高可靠性。 高效性。 高可扩展性。 高容错性。 成本低。 运行在Linux平台上。 支持多
hadoop3.3.1单机版环境搭建详细流程记录
单机版hadoop3.3.1搭建详细过程。
大数据之存算分离架构研究
随着硬件技术的快速进步,尤其是网络和存储设备的性能迅速提升,以及云计算厂商推动软硬件协同加速的云存储服务,越来越多的企业开始基于云存储来构建数据存储服务,或数据湖,因此就需要单独再建设一个独立的计算层来提供数据分析服务,这也就是存算分离架构(Disaggregated Storage and Com
Flink(七)【输出算子(Sink)】
Flink Sink输出算子
CDH大数据平台入门篇之搭建与部署
CDH:存储各种类型的数据、使用各种不同的计算框架进行操作、能够快速集成和运行一个完整的Hadoop平台,适用于各种不同的硬件和软件、高安全性且能够部署多种应用,并扩展和扩充它们以满足你的需求、还可以放心地用于关键的商业任务。
Hadoop集群安装部署
hadoop集群的搭建
sparksql源码系列 | 一文搞懂Show create table 执行原理
这篇文章主要介绍了show create table命令执行的源码流程,弄清楚了sparksql是怎么和hive元数据库交互,查询对应表的metadata,然后拼接成最终的结果展示给用户的
架构师必知必会系列:容器安全与容器漏洞管理
作者:禅与计算机程序设计艺术 1.简介容器漏洞是一个敏感的话题。由于容器技术的普及和社区成熟,越来越多的企业、组织将容器技术作为一种“云”服务进行应用部署、运维和管理,而容器成为一个“平台”,其潜在危险性也越来越高。因此,保护容器环境免受攻击并修补漏洞是非常重要
大数据SpringBoot项目——基于SpringBoot+Bootstrap框架的学生宿舍管理系统的设计与实现
该系统采用了基于Bootstrap的样式搭建的管理系统,后台采用SpringBoot框架和MySQL数据库,通过Java+javasript+jsp 语言编写,具有比较高的安全性,跨平台,很强的可移植性。学生可以非常方便查看宿舍信息、入住信息。宿舍管理员可以通过后台强大的信息修改功能进行更新,对楼宇
Spark内核
任务的最小单位是线程。失败重试,会记录失败的次数,如果超过最大重试次数,宣告Application失败。失败的同时会记录它上一次所在的ExecutorID和Host, 最多重试4次。落盘的话就需要考虑不同分区之间的数据如何存放的问题。假设每个Executor有两个Task,总共有三个分区。特点:无论
oracle递归查询connect by prior
oracle的start with connect by prior是条件递归查询,树结构