大数据-玩转数据-Flume

Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。Flume基于流式架构,容错性强,也很灵活简单。Flume、Kafka用来实时进行数据收集,Spark、Flink用来实时处理数据,impala用来实时查询。

【大数据】Hadoop_MapReduce➕实操(附详细代码)

MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一是分布式计算框,就是mapreduce,二者缺一不可,也就是说,可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程sftp命令:Windows下登录Hadoop102l

使用两台Centos7系统搭建Hadoop-3.1.4完全分布式集群

Hadoop是Apache旗下的一个用Java语言实现开源软件框架,是一个存储和计算大规模数据的软件平台。Hadoop是Apache Lucene创始人 Doug Cutting 创建的,最早起源一个Nutch项目。2003年Google发表了一篇GFS论文,为大规模数据存储提供了可行的解决方案。2

从0到1构建智能分布式大数据爬虫系统

从0到1搭建分布式爬虫平台、深度汇总各功能模块应用

【flink】Task 故障恢复详解以及各重启策略适用场景说明

【flink】Task 故障恢复详解以及各重启策略适用场景说明

版本控制工具 - git的安装与使用

git的下载与安装、idea中git插件配置、gitlab项目拉取

【数据开发】大数据平台架构,Hive / THive介绍

什么是Hive?Hive是一个基于Hadoop的数据仓库工具。它提供了一个类似于SQL的查询语言,称为HiveQL,用于查询和分析大规模数据集。Hive将结构化数据映射到Hadoop的分布式文件系统和Hadoop的分布式处理引擎上,允许用户使用类似于SQL的语言查询数据,并将数据转换为其他格式,例如

hadoop完全分布式集群搭建(超详细)-大数据集群搭建

本次搭建完全分布式集群用到的环境有:jdk1.8.0hadoop-2.7.7本次搭建集群所需环境也给大家准备了,下载链接地址:https://share.weiyun.com/dk7WgaVk密码:553ubk本次完全分布式集群搭建需要提前建立好三台虚拟机,我分别把它们的主机名命名为:master,

HIVE数据抽样

hive中分桶其实就是根据某一个字段Hash取模,放入指定数据的桶中,比如将表table按照ID分成100个桶,其算法是hash(id) % 100,这样,hash(id) % 100 = 0的数据被放到第一个桶中,hash(id) % 100 = 1的记录被放到第二个桶中。sort by 提供了单

Hadoop的安装和使用,Windows使用shell命令简单操作HDFS

Hadoop的安装和使用,Windows使用shell命令简单操作HDFS,Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。 高可靠性。 高效性。 高可扩展性。 高容错性。 成本低。 运行在Linux平台上。 支持多

hadoop3.3.1单机版环境搭建详细流程记录

单机版hadoop3.3.1搭建详细过程。

大数据之存算分离架构研究

随着硬件技术的快速进步,尤其是网络和存储设备的性能迅速提升,以及云计算厂商推动软硬件协同加速的云存储服务,越来越多的企业开始基于云存储来构建数据存储服务,或数据湖,因此就需要单独再建设一个独立的计算层来提供数据分析服务,这也就是存算分离架构(Disaggregated Storage and Com

Flink(七)【输出算子(Sink)】

Flink Sink输出算子

CDH大数据平台入门篇之搭建与部署

CDH:存储各种类型的数据、使用各种不同的计算框架进行操作、能够快速集成和运行一个完整的Hadoop平台,适用于各种不同的硬件和软件、高安全性且能够部署多种应用,并扩展和扩充它们以满足你的需求、还可以放心地用于关键的商业任务。

Hadoop集群安装部署

hadoop集群的搭建

sparksql源码系列 | 一文搞懂Show create table 执行原理

这篇文章主要介绍了show create table命令执行的源码流程,弄清楚了sparksql是怎么和hive元数据库交互,查询对应表的metadata,然后拼接成最终的结果展示给用户的

架构师必知必会系列:容器安全与容器漏洞管理

作者:禅与计算机程序设计艺术 1.简介容器漏洞是一个敏感的话题。由于容器技术的普及和社区成熟,越来越多的企业、组织将容器技术作为一种“云”服务进行应用部署、运维和管理,而容器成为一个“平台”,其潜在危险性也越来越高。因此,保护容器环境免受攻击并修补漏洞是非常重要

大数据SpringBoot项目——基于SpringBoot+Bootstrap框架的学生宿舍管理系统的设计与实现

该系统采用了基于Bootstrap的样式搭建的管理系统,后台采用SpringBoot框架和MySQL数据库,通过Java+javasript+jsp 语言编写,具有比较高的安全性,跨平台,很强的可移植性。学生可以非常方便查看宿舍信息、入住信息。宿舍管理员可以通过后台强大的信息修改功能进行更新,对楼宇

Spark内核

任务的最小单位是线程。失败重试,会记录失败的次数,如果超过最大重试次数,宣告Application失败。失败的同时会记录它上一次所在的ExecutorID和Host, 最多重试4次。落盘的话就需要考虑不同分区之间的数据如何存放的问题。假设每个Executor有两个Task,总共有三个分区。特点:无论

oracle递归查询connect by prior

oracle的start with connect by prior是条件递归查询,树结构

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈