Hadoop生态漏洞修复记录

Hadoop、zookeeper、hive漏洞修复

HDFS介绍

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Cor

HDFS学习笔记

对于每一个数据块,NameNode 节点返回保存数据块的数据节点的地址。当Active NameNode的命名空间发生变化的时候,它会把这个变化通知所有JN,有的JN收到信息,有的JN是没有收到信息的,如果大部分JN进程接到信息,就认为这个事件是可信的,如果少数的JN接到信息,就认为这个信息是错误的

Hadoop中 常用端口说明和相关配置文件

Hadoop中 常用端口说明和相关配置文件

Hbase

HBase(Hadoop DataBase),是一种非关系型分布式数据库(NoSQL),支持海量数据存储(官方:单表支持百亿行百万列)。HBase 采用经典的主从架构,底层依赖于 HDFS,并借助 ZooKeeper 作为协同服务,其架构大致如下:其中,对 HBase 全局有了基本理解后,我认为有几

hive read time out

2) hiveConnection的socket超时时间通过loginTimeout进行设置,而loginTimeout读取的DriverManager的超时时间,因此,在创建hive连接时需要设置DriverManage的loginTimeout属性。总结:hive中执行SQL的耗时较长,需要增大

Hive(21):DML之Update、Delete更新、删除数据

首先,必须明确,你理解的Hive这款软件,定位是什么?是面向事务支持事务的RDBMS?还是面向分析,支持分析的数据仓库。这很重要。Hive是基于Hadoop的数据仓库,面向分析支持分析工具。因此在Hive中常见的操作的就是分析查询select操作。将已有的结构化数据文件映射成为表,然后提供SQL分析

CDH-6.3.2从零到一的详细安装教程&hive on Spark性能测试教程

CDH-6.3.2详细安装教程,从零到一的详细教程,包括mysql、Java、CM、hive、Spark、Hadoop、zookeeper、kafka、Hue、flume、oozie的安装教程

下一代大数据分布式存储技术Apache Ozone初步研究

如果还在为HDFS上存储海量的小文件而烦恼,不烦多留意号称下一代分布式存储技术Apache Ozone,其诞生初衷就是解决HDFS面临棘手问题,本篇从了解其特性和总体架构,基于开发测试需求通过docker和docker-compose方式启动Ozone本地集群,最后通过命令行接口和兼容hadoop命

Hive-时间日期&trunc-日期与数字截取函数

TRUNC函数为指定元素而截去的日期值。其具体的语法格式如下:TRUNC(date[,fmt])1、current_timestamp() -- 获取时间 2022-10-09 16:00:24.1892、unix_timestamp() -- 获取时间戳 16653024983、select

【Flink】1.Flink集群部署

flink集群部署:standalone和flink-on-yarn

Hadoop常用命令

hdfs dfs -copyFromLocal /local/data/file.txt /hadoop/data :将本地文件上传到hdfs上(原路径只能是一个文件)hadoop dfs -put /local/*.txt /hadoop/path/ :put和 copyFromLoc

实验三:熟悉常用的HBase操作

向表tableName、行row(用S_Name表示)和字符串数组fields指定的单元格中添加对 应的数据valueso其中,fields中每个元素如果对应的列族下还有相应的列限定符,用 “columnFamily: column"表示。创建表,参数tableName 表的名称,字符串数组fiel

【大数据之Hive】五、Hiveserver2服务部署

hiveserver2提供JDBC/ODBC接口,使得用户可以远程访问Hive数据,即作为客户端的代理与Hadoop集群进行交互。hiveserver2部署时需要部署到一个能访问集群的节点上,保证能够直接往Hadoop上提交数据。用户在客户端提交SQL语句时,由hiveserver请求HDFS或者提

Hive中的in、exists和left semi join

Hive中的in、exists和left semi join

hive设置本地执行方式

假如hive中的SQL语句执行时间太长,可以设置本地执行方式,设置本地执行模式可以优化执行速度,数据量小的时候,使用本地模式:。以上这些配置,都可以写在 hive 的conf 下的 .hiverc 文件中,当hive启动的时候,就会加载。在hive的配置文件 hive-env.sh中将一些配置注释

三台异构服务器搭建hadoop HA集群史上最详细方案(HDFS+YARN)

三台异构主机配置hadoop高可用环境,网上见到的HA的少,记录一下

hive的数据导入

insert导出,导出的目录不用自己提前创建,Hive会帮我们自动创建,但是由于是overwrite,所以导出路径一定要写具体,否则很可能会误删数据。insert不支持插入部分字段,并且后边跟select语句时,select之前不能加as,加了as会报错,一定要跟下面的as select区分开。并且

HDFS常用命令

正则匹配OriginalFilePath目录下的文件(夹),批量上传到hdfs的targetFilePath目录下。其中-E表示告诉grep后面是一个正则表达式。查看yarn集群中正在运行的应用,可以看到各个应用的执行状态和进度(progress可能不准确,一直为10%)查看所有处于running状

登录可以使用的更多功能哦! 登录
作者榜
...
资讯小助手

资讯同步

...
内容小助手

文章同步

...
Deephub

公众号:deephub-imba

...
奕凯

公众号:奕凯的技术栈