搭建Hadoop的伪分布式
Hadoop搭建伪分布式
MapReduce经典案例—数据去重
数据去重主要是为了掌握利用并行化思想来对数据进行有意义的筛选,数据去重指去除重复数据的操作。在大数据开发中,统计大数据集上的多种数据指标,这些复杂的任务数据都会涉及数据去重。文件file1.txt本身包含重复数据,并且与file2.txt同样出现重复数据,现要求使用Hadoop大数据相关技术对以上两
【Linux】基础IO_文件系统
磁盘文件与磁盘的物理结构、文件系统相关深入理解
HBASE API 操作
1、idea创建一个maven项目2、添加相关依赖(HBASE客户端(最主要)、服务端),pom.xml
Flink 实时数仓 (一) --------- 数据采集层
Flink 实时数仓数据采集层
Hadoop HDFS的特点与优缺点
Hadoop HDFS的特点与优缺点
大数据技术(入门篇) --- 使用 Spring Boot 操作 CDH6.2.0 Hadoop
本人是web后端研发,习惯使用spring boot 相关框架,因此技术选型直接使用的是spring boot,目前并未使用 spring-data-hadoop 依赖,因为这个依赖已经在 2019 年终止了,可以点击查看 ,所以我这里使用的是自己找的依赖,Hadoop是一个由Apache基金会所开
flume入门案例
flume入门案例
Flink中遇到的问题
解决遇到的一些问题
词频的统计
任务8、词频统计-参看本博《经典案例【词频统计】十一种实现方式》-针对单词文本文件,统计每个单词出现的次数hello hadoop hello sparki love you hadoop and sparki learn hadoop and scala-思路:读取文件,通过拆分得到单词数组,定义
Hive动态分区和分桶使用场景和使用方法
按照数据表的某列或某些列分为多个分区,分区从形式上可以理解为文件夹,比如我们要收集某个大型 网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表 的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据 进行分区,不同日期的数据
Hive安装与配置及常见问题解决
对Hadoop系统的hive组件的安装与配置
Hadoop集群安装和搭建(从零开始超级超级详细的过程)(上)
Hadoop集群安装和搭建(从零开始超级超级详细的过程)(上)
hive启动不成功原因
简单介绍了hive启动不成功原因,而Hive是一个基于Hadoop的数据仓库框架,它使用SQL语句读、写和管理大型分布式数据集。Hive可以将SQL语句转化为MapReduce (或Spark、 Tez) 任务执行,大大降低了Hadoop的使用门槛,减少了开发MapReduce程序的时间成本。
HBase架构篇 - Hadoop家族的天之骄子HBase
本文介绍Hadoop家族的HBase。
Spark - 获取一定时间内的 Hdfs 全部文件并读取
Spark 读取一定范围内的 Hdfs 文件。
Hive(3):Hive客户端使用
在嵌入式模式下,它运行嵌入式 Hive(类似于Hive Client),而远程模式下beeline通过 Thrift 连接到单独的 HiveServer2 服务上,这也是官方推荐在生产环境中使用的模式。二是用于Hive相关服务的启动,比如metastore服务。第二代客户端(recommended
大数据之Hadoop
大数据
大数据 | 实验一:大数据系统基本实验 | MapReduce 初级编程
掌握用 MapReduce 解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。通过实验掌握基本的 MapReduce 编程方法。
【大数据入门核心技术-Hadoop】(六)Hadoop3.2.1高可用集群搭建
独立模式又称为单机模式,仅1个机器运行1个java进程,主要用于调试。伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,但分别启动单独的java进程,主要用于调试。单Namenode节点模式-高可用HA模式集